BioDL
关联笔记:常见DL设计
基本操作
- 序列:获取DNA/RNA/AA序列的表示
- LSTM/Transformer(序列、Epi、结构) + Knowledge(GCN:PPI/BlastHits、...)随后可用CNN整合
- 在缺失标签的情况下,可用 self/semi-supervised (AE/DAE/GAN) 获得表示
- 从预训练的PLM中获取蛋白质序列的表示
- ESM-facebook
- SaProt-westlake 需要输入Foldseek的 structure-aware sequence,可以搜索Foldseek的在线数据库,也可以从ColabFold预测结构、然后convert
| 以蛋白质为例 | 数据 | 评估 | 示例 |
|---|---|---|---|
| 结构预测 | PDB | CASP 竞赛 | AlphaFold2 |
| GO功能预测 | UniportKB/GO/... | CAFA 竞赛 | DeepGO-SE, DeepEC |
| 相互作用预测:预测binding,辅助CRISPR系统设计 | inDelphi/CRISPRon | 高通量芯片合成及文库筛选 | DeepCas9 |
-
Matrix:插补,增强,批次矫正,多组学Anchor:单细胞/转录组/蛋白组
- AE对MS蛋白质组数据进行插补
- DISC (2020): 应用于单细胞数据,半监督学习插补缺失值;将AE重构表达谱循环输入AE,最后取所有表达谱的加权平均值作为插补结果
- SAUCIE (2019): 应用于单细胞数据,可以用AE中间层的输出进行批次矫正、聚类、细胞类型注释等,以应对稀疏、噪音等问题,说明
-
系统发育树:GNN/Topology:Hyperbolic space 更适合 hierarchical latent structure (Tree Embedding) 所以效果不好(?)
-
解释模型(XAI) --- 常用工具集 SHAP
- 输入中的那一部分比较重要?(GNNExplainer)--- 对输入数据中的某一特征添加扰动 delta_x,评估其对于输出(或者loss)的扰动 delta_y : delta_y/delta_x
- 对于某一类输出,输入应该是什么样子?--- 训练Generator对该类别的低维特征输出进行解码(?)
- 模型参数激活值的变化(DeepLIFT) --- 根据每一层神经元的“改变”来计算每个输入特征的具体贡献
其它:Multi-Head 是一种常见的模式
应用内容
参考:应用综述 (2022)
Synthetic Biology (2024)
- 细胞工程
- 预测启动子/RBS强度
- 预测目标基因表达强度
- sgRNA on/off-target binding --- 相互作用预测
gRNA-Cas9 XXXXX——————————MMM
target DNA 5'———XXXXX——————————PAM——3'
CRISPR靶向特异性:
1. pairing between gRNA and target DNA
2. binding between Cas9 and short motif PAM
-
代谢工程:代谢通路设计/优化/量产
- ART 为希望达成的 response(化合物产量) 提供推荐 input(omics):由于化合物可能来自多条代谢通路,需要在不影响整体细胞状况的情况下最大化其产量
- Optimus 5-Prime: 5′UTR序列(长度/SNV/..)与翻译调控(ribosome footprints 密度)之间的关系
-
训练数据获取
- 长度有限的序列(5′UTR/promoter)可通过生成随机/半随机 Libraries,进行 massively parallelized assays
表观:TFBS prediction
- DeepSEA (2015) 根据 non-coding region 中的突变信息预测 TF binding、DNaseI sensitivities、histone marks
- TFcoop (2019) 非DL 是 logistic model (LASSO);利用序列 + cooperating TFs' binding affinity 推断TFBS
注:训练集的TFBS信息从Chip-seq 数据获得,可从 ENCODE下载
传统生信项目一般使用PWM矩阵(motif.jaspar文件)在基因组中扫描潜在TFBS
外显子测序数据的 bias Correct
WES 使用 targeting probes,因此其数据中存在 length/GC/reference biases,故而使用此类数据进行的 CNV 检测精度不佳。但是它便宜。
DECoNT (2022) 基于 matched WES and WGS data (1000 Genomes Project) 进行训练,纠正 WES-based germline CNV callers 的结果。
- CNVnator Call CNV,单个样本的CNV统计结果按照位置区间排列
- BiLSTM读取、生成各个位置区间的CNV信息(WES),输出尽可能接近WGS数据结果
ECOLE (2024) 主要改用 Transformer 架构优化了一下、加入了人类专家标记数据,可以达到 68.7% precision and 49.6% recall,并可推广至其他测序平台数据
其它话题
- LOGO (2022): 语言模型,可被迁移用于序列标记任务(启动子识别、增强子-启动子相互作用预测、染色质状态预测)和非编码变异优先排序任务
进一步优化
-
对LCMS的注释受限于数据集设定,但 De Novo Peptide Sequencing 接通过质谱标注来重建肽序列
- NovoBench 提供各种 De Novo 方法的基准测试:DeepNovo(提取特征后LSTM生成序列),PointNovo(生成小分子), Casanovo(Transformer), InstaNovo(Transformer+扩散式迭代优化), AdaNovo, π-HelixNovo
- AdaNovo:自适应生成模型,根据反馈调整分子结构:匹配程度,即质谱与氨基酸或肽之间的条件互信息(CMI)
-
FlexMol 药物发现工具集:药物/蛋白结构/蛋白序列的Encoder,相互作用层。可用于快速搭建模型架构
- 药物-靶标相互作用(DTIs):新药开发和副作用预测
- 蛋白质-蛋白质相互作用(PPIs):发现潜在的治疗靶点
- 药物-药物相互作用(DDIs):分析多种药物同时使用时的影响
-
UniIF 分子序列设计工具集:分子逆折叠模型(结构->序列)
- 蛋白质设计、RNA设计、小分子材料设计
-
如何更好的将(序列、结构、功能)信息集成在单个蛋白质表示中?
- ProtGO:使用集成的教师网络(序列、结构、功能)训练学生网络
- CoupleNet:基于(残差理化性质-node、结构距离-edge)构建动态图,卷积生成蛋白质表达