Journal CCF

CCF期刊泛读记录，CCF Conference Deadlines

Bioinformatics - Advance articles

2025.01

SCARAP
- 推断泛基因组（序列相似的氨基酸序列集）？MAFFT+MMseqs2 进行比对聚类
  - species-level core genome --> orthogroup fixation frequency ?（Orthogroup正交群 -- 由一个物种的LCA中的单个基因进化而来的一组基因）
- 如何寻找核心基因集？先从少量数据中获取特征（hints 旧方法：从泛基因组中获取子集 -- 耗时 / 预设一组core基因候选 -- 不全）
  1. 随机选取100个seed genomes、推断它们的pan
  2. 识别core候选集：基因家族，存在于90%以上的seed genomes中
  3. 对选取的每个基因家族获取其 alignment profiles（MAFFT+MMseqs2），再度遍历 seed genomes，根据单个profile 与 core / not core 候选集的比对分数决定cutoff阈值（二者均值），用这个cutoff阈值重新筛查这个profile可比对的基因，若存在于95%以上的seed genomes中，则这个profile对应的基因家族是core
  4. 将 core gene profiles / cutoffs 应用于完整数据集中
- 预设定一组基因（core/pan），可计算基因组间的相似度（ANI），本文提供了从数据库中获取新（不相似）基因组的工具
- pan-genome 数据：SimPan模拟 (nucleotide identity 90% 区分属), Tonkin-Hill 数据集 (区分亚种), GTDB (区分属), OrthoBench/paraBench
CrossIsoFun 亮点在于 isoform-isoform interactions IIIs 的 Encoder，比PPIs分辨率更高？
- multi-omics
  - PPIs (Interactomics)
  - isoform expression profiles from RNA-seq data (Transcriptomics)
  - sequence features from protein sequences and conserved domains (Proteomics)
- multi-omics --> GO slim
  1. AE_CycleGAN(multi-omics) --> IIIs
  2. GCN(expression) GCN(sequence) GCN(III) 获取各模态的特征
  3. View Correlation Discovery Network (VCDN) 集成、寻找模态间相关性
1D convolutional：单细胞表观 multi-omics 整合
- 如何生成序列？在基因组上按区域/bin统计某个特征的计数
- 多组学？全连接层-VAE（联合分布 ---> 分解为条件分布的乘积 ---> 联合分布）忽略了基因组顺序，且独立处理每个模态、丢失跨模态的关键信息。本文建议在有序特征空间上进行卷积（具有多个特征/通道的1D序列），即 ConvNet-VAE （本文设置泊松分布为VAE的条件分布）
- 一些评估：marginal likelihood p_data (从z中再生成数据的能力/贝叶斯模型的基准测试)，Adjusted Rand Index ARI(获得embedding后的聚类性能评估)
POASTA 兆级长度的多重序列比对
- 偏序比对（POA）是一种渐进式多序列比对（逐步添加序列）
采样时，一般希望 k-mer 数量尽量少，Bryce Kille 证明了一个近紧下界
PHIStruct: phage–host interaction
- 从 phage 数据库中提取 Receptor-binding protein (名称匹配+PhageRBPdetect)，用 SaProt Embed 结构信息，预测 ESKAPEE host genera
EnrichRBP 平台：RNA-RBP binding site/motif/select/visualize ... 支持DL在内的多种工具
DDGemb：又一个 PLM+Transformer 预测残基变异对蛋白质热力学稳定性的影响
- 相关的实验ΔΔG值：ProTherm 数据库，PTmul 数据集
BetaAlign: NLP 将一组未比对的生物序列映射到 MSA ???
- concat ATG | ACGG | ACG --> Transformer 预训练的 --> crossed AAA TCC -G- GGG --> AT-G ACGG AC-G
- 训练：已知 “true” MSA 的模拟数据，cross-entropy loss
  - 值得思考：进化参数对序列比对推断准确性的影响（indel长度、频率）--- 当前评分方案/惩罚参数是否可靠？
- 最多 1024 个 token，超出只能分段 MSA
- 对k条序列生成k!种MSA，选取最佳
TPepPro：局部序列特征(TextCNN) + 局部-稍远处结构特征(TAGCN) --> 有/无 PepPI
- 肽-蛋白质相互作用（PepPIs）的难点在于其瞬时性质、以及肽的高柔性；传统的分子动力学模拟方法需要大量的计算资源
- 可解释性：Attention，卷积核 activation maps
CParty算法，已被纳入2D预测工具 HotKnots 2.0（旧版支持 HFold 算法，也可包含假结，但模糊）
- pseudoknots(hairpin_loop与RNA链的某部分再度稳定缠绕) 是 RNA 2D 结构预测的难点（NP难）
- density-2 指在序列的任何一点，最多重叠两层碱基对的弧线（Figure 1）
- RNA 结构的自由能：所有环的能量之和