Database Tips
- 注释方法
- 比对数据库
- 根据DB生成hmm注释文件
- Kraken/Kraken2 对数据库构建LCA物种树,并通过k-mer方式快速对宏基因组reads数据进行物种分类、定量
- 可以自己从各个数据库中合并/筛选项目所需(记得CDHIT去冗余)
- 参考 ID Mapper 将不同数据库的ID对应起来;虽然大部分数据库的最终来源很可能都是NCBI,但由于时间版本不同、序号可能不一致,需要注意
- 如果需要数据来测试工具,参考此处笔记
- ENCODE 内含众多Epi相关数据,适用于训练DL模型
- NCBI镜像
| -- |
DB数据类型 |
包含物种 |
查询数据 |
查询工具 |
其它说明 |
| Taxonony |
分类学索引表格文本 |
All |
taxid/Name(可能重复) |
-- |
e.g.界门纲目科属种的对应关系 |
| PDB |
蛋白+三维结构 |
-- |
-- |
-- |
-- |
| Swiss-Prot |
Protein序列,UniParc非冗余蛋白序列-->UniprotKB带注释:其中Swiss-Prot人工注释,TrEMBL计算机注释;UniRef按不同相似度聚类,进一步去冗余,注释优先选取Swiss-Prot |
-- |
-- |
-- |
Gene水平的物种注释 |
| NT |
非冗余 Gene序列(DNA) |
All |
CDS 序列 |
-- |
Gene水平的物种注释 |
| NR |
Protein序列(翻译自NT) |
All |
Protein 序列 |
-- |
Gene水平的物种注释 |
| GTDB |
-- |
-- |
MAGs/Cell |
GTDBtk |
细胞水平的物种注释 |
| CAT |
-- |
-- |
Contig序列 |
-- |
Contig水平的物种注释 |
| BAT |
-- |
-- |
Cell/MAG |
-- |
Cell/MAG的物种注释 |
| SILVA |
rRNA |
Bacteria, Archaea, Eukarya |
16S/18S/... Amplicon Reads |
建议blast/uclust Archive-Exports 中的fasta文件 |
多用于rRNA Amplicon物种注释(但新版本错误很多),或去除数据中的rRNA序列 |
|
|
|
|
|
|
| ISFinder |
可移动元件 |
细菌、古菌 |
Contigs 序列 |
-- |
可移动元件不全在CDS内部 |
|
|
|
|
|
|
| KEGG |
-- |
-- |
CDS 序列 |
-- |
Gene所属的Pathway注释 |
| GO |
-- |
-- |
CDS 序列 |
-- |
Gene的生物功能注释(Gene Ontology) |
| CARD |
-- |
-- |
CDS 序列 |
blast最佳,官方的rgi没有成功 |
ARGs基因注释 |
| SARG |
-- |
-- |
Reads |
ARGs-OAP |
提供ARGs自定义单位的定量;也可以用于 blast CDS |
| CAZy |
蛋白序列 |
Bacteria, Eukaryota, Archaea, Viruses |
蛋白序列 |
-- |
将碳水化合物活性酶归入不同蛋白质家族 |
| PHI-base |
蛋白序列 |
-- |
-- |
-- |
基因对病原菌致病能力的影响 |
| -- |
-- |
-- |
-- |
-- |
-- |
|
|
|
|
|
|
| InterPro |
Gene Family(Pfam) + 结构 + 功能 多个数据库的整合 |
-- |
蛋白序列 |
InterProScan |
包括了Pfam |
| EggNOG |
不同分类水平的 Orthogonal Group(COG的拓展) |
-- |
蛋白序列 |
eggNOG-mapper |
更新慢 |
| String |
蛋白质互作关系 |
见?? |
id/蛋白序列 |
-- |
提供 aa1 aa2 SCORE 列表 + 相关aa序列,见 String 网站 download 页面说明 |
VFDB: virulence factors of bacterial pathogens