Database Tips

  • 注释方法
    • 比对数据库
    • 根据DB生成hmm注释文件
    • Kraken/Kraken2 对数据库构建LCA物种树,并通过k-mer方式快速对宏基因组reads数据进行物种分类、定量
  • 可以自己从各个数据库中合并/筛选项目所需(记得CDHIT去冗余)
  • 参考 ID Mapper 将不同数据库的ID对应起来;虽然大部分数据库的最终来源很可能都是NCBI,但由于时间版本不同、序号可能不一致,需要注意
  • 如果需要数据来测试工具,参考此处笔记
  • ENCODE 内含众多Epi相关数据,适用于训练DL模型
  • NCBI镜像
-- DB数据类型 包含物种 查询数据 查询工具 其它说明
Taxonony 分类学索引表格文本 All taxid/Name(可能重复) -- e.g.界门纲目科属种的对应关系
PDB 蛋白+三维结构 -- -- -- --
Swiss-Prot Protein序列,UniParc非冗余蛋白序列-->UniprotKB带注释:其中Swiss-Prot人工注释,TrEMBL计算机注释;UniRef按不同相似度聚类,进一步去冗余,注释优先选取Swiss-Prot -- -- -- Gene水平的物种注释
NT 非冗余 Gene序列(DNA) All CDS 序列 -- Gene水平的物种注释
NR Protein序列(翻译自NT) All Protein 序列 -- Gene水平的物种注释
GTDB -- -- MAGs/Cell GTDBtk 细胞水平的物种注释
CAT -- -- Contig序列 -- Contig水平的物种注释
BAT -- -- Cell/MAG -- Cell/MAG的物种注释
SILVA rRNA Bacteria, Archaea, Eukarya 16S/18S/... Amplicon Reads 建议blast/uclust Archive-Exports 中的fasta文件 多用于rRNA Amplicon物种注释(但新版本错误很多),或去除数据中的rRNA序列
ISFinder 可移动元件 细菌、古菌 Contigs 序列 -- 可移动元件不全在CDS内部
KEGG -- -- CDS 序列 -- Gene所属的Pathway注释
GO -- -- CDS 序列 -- Gene的生物功能注释(Gene Ontology)
CARD -- -- CDS 序列 blast最佳,官方的rgi没有成功 ARGs基因注释
SARG -- -- Reads ARGs-OAP 提供ARGs自定义单位的定量;也可以用于 blast CDS
CAZy 蛋白序列 Bacteria, Eukaryota, Archaea, Viruses 蛋白序列 -- 将碳水化合物活性酶归入不同蛋白质家族
PHI-base 蛋白序列 -- -- -- 基因对病原菌致病能力的影响
-- -- -- -- -- --
InterPro Gene Family(Pfam) + 结构 + 功能 多个数据库的整合 -- 蛋白序列 InterProScan 包括了Pfam
EggNOG 不同分类水平的 Orthogonal Group(COG的拓展) -- 蛋白序列 eggNOG-mapper 更新慢
String 蛋白质互作关系 见?? id/蛋白序列 -- 提供 aa1 aa2 SCORE 列表 + 相关aa序列,见 String 网站 download 页面说明

VFDB: virulence factors of bacterial pathogens