Skip to content

BioDL

关联笔记:常见DL设计

基本操作

  1. 序列:获取DNA/RNA/AA序列的表示
    • LSTM/Transformer(序列、Epi、结构) + Knowledge(GCN:PPI/BlastHits、...)随后可用CNN整合
    • 在缺失标签的情况下,可用 self/semi-supervised (AE/DAE/GAN) 获得表示
    • 从预训练的PLM中获取蛋白质序列的表示
以蛋白质为例 数据 评估 示例
结构预测 PDB CASP 竞赛 AlphaFold2
GO功能预测 UniportKB/GO/... CAFA 竞赛 DeepGO-SE, DeepEC
相互作用预测:预测binding,辅助CRISPR系统设计 inDelphi/CRISPRon 高通量芯片合成及文库筛选 DeepCas9
  1. Matrix:插补,增强,批次矫正,多组学Anchor:单细胞/转录组/蛋白组

    • AE对MS蛋白质组数据进行插补
    • DISC (2020): 应用于单细胞数据,半监督学习插补缺失值;将AE重构表达谱循环输入AE,最后取所有表达谱的加权平均值作为插补结果
    • SAUCIE (2019): 应用于单细胞数据,可以用AE中间层的输出进行批次矫正、聚类、细胞类型注释等,以应对稀疏、噪音等问题,说明
  2. 系统发育树:GNN/Topology:Hyperbolic space 更适合 hierarchical latent structure (Tree Embedding) 所以效果不好(?)

    • 旅行商问题思路解决 min state flip,以推断 perfect phylogeny
    • DEPP用于扩充单基因树(?)
    • PhyloGen:不在拘泥于序列对齐,而是基于序列模型提取的特征。此方法获得的距离score避免传统方法中,序列长度、SV、...带来的额外惩罚
  3. 解释模型(XAI) --- 常用工具集 SHAP

    • 输入中的那一部分比较重要?(GNNExplainer)--- 对输入数据中的某一特征添加扰动 delta_x,评估其对于输出(或者loss)的扰动 delta_y : delta_y/delta_x
    • 对于某一类输出,输入应该是什么样子?--- 训练Generator对该类别的低维特征输出进行解码(?)
    • 模型参数激活值的变化(DeepLIFT) --- 根据每一层神经元的“改变”来计算每个输入特征的具体贡献

其它:Multi-Head 是一种常见的模式

应用内容

参考:应用综述 (2022)

Synthetic Biology (2024)

  • 细胞工程
    • 预测启动子/RBS强度
    • 预测目标基因表达强度
    • sgRNA on/off-target binding --- 相互作用预测
 gRNA-Cas9      XXXXX——————————MMM
target DNA 5'———XXXXX——————————PAM——3'

CRISPR靶向特异性:
    1. pairing between gRNA and target DNA
    2. binding between Cas9 and short motif PAM
  • 代谢工程:代谢通路设计/优化/量产

    • ART 为希望达成的 response(化合物产量) 提供推荐 input(omics):由于化合物可能来自多条代谢通路,需要在不影响整体细胞状况的情况下最大化其产量
    • Optimus 5-Prime: 5′UTR序列(长度/SNV/..)与翻译调控(ribosome footprints 密度)之间的关系
  • 训练数据获取

    • 长度有限的序列(5′UTR/promoter)可通过生成随机/半随机 Libraries,进行 massively parallelized assays

表观:TFBS prediction

  • DeepSEA (2015) 根据 non-coding region 中的突变信息预测 TF binding、DNaseI sensitivities、histone marks
  • TFcoop (2019) 非DL 是 logistic model (LASSO);利用序列 + cooperating TFs' binding affinity 推断TFBS

注:训练集的TFBS信息从Chip-seq 数据获得,可从 ENCODE下载

传统生信项目一般使用PWM矩阵(motif.jaspar文件)在基因组中扫描潜在TFBS

外显子测序数据的 bias Correct

WES 使用 targeting probes,因此其数据中存在 length/GC/reference biases,故而使用此类数据进行的 CNV 检测精度不佳。但是它便宜。

DECoNT (2022) 基于 matched WES and WGS data (1000 Genomes Project) 进行训练,纠正 WES-based germline CNV callers 的结果。

  1. CNVnator Call CNV,单个样本的CNV统计结果按照位置区间排列
  2. BiLSTM读取、生成各个位置区间的CNV信息(WES),输出尽可能接近WGS数据结果

ECOLE (2024) 主要改用 Transformer 架构优化了一下、加入了人类专家标记数据,可以达到 68.7% precision and 49.6% recall,并可推广至其他测序平台数据

其它话题

  • LOGO (2022): 语言模型,可被迁移用于序列标记任务(启动子识别、增强子-启动子相互作用预测、染色质状态预测)和非编码变异优先排序任务

进一步优化

参考:西湖大学 NeurIPS (2024) 发布

  • 对LCMS的注释受限于数据集设定,但 De Novo Peptide Sequencing 接通过质谱标注来重建肽序列

    • NovoBench 提供各种 De Novo 方法的基准测试:DeepNovo(提取特征后LSTM生成序列),PointNovo(生成小分子), Casanovo(Transformer), InstaNovo(Transformer+扩散式迭代优化), AdaNovo, π-HelixNovo
    • AdaNovo:自适应生成模型,根据反馈调整分子结构:匹配程度,即质谱与氨基酸或肽之间的条件互信息(CMI)
  • FlexMol 药物发现工具集:药物/蛋白结构/蛋白序列的Encoder,相互作用层。可用于快速搭建模型架构

    • 药物-靶标相互作用(DTIs):新药开发和副作用预测
    • 蛋白质-蛋白质相互作用(PPIs):发现潜在的治疗靶点
    • 药物-药物相互作用(DDIs):分析多种药物同时使用时的影响
  • UniIF 分子序列设计工具集:分子逆折叠模型(结构->序列)

    • 蛋白质设计、RNA设计、小分子材料设计
  • 如何更好的将(序列、结构、功能)信息集成在单个蛋白质表示中?

    • ProtGO:使用集成的教师网络(序列、结构、功能)训练学生网络
    • CoupleNet:基于(残差理化性质-node、结构距离-edge)构建动态图,卷积生成蛋白质表达