Skip to content

NT NR

  • NR: Non-Redundant Protein Sequence Database
  • NT: Nucleotide Sequence Database (of NR)

关联:NR SWissport GO KEGG 已实现相互注释

Setup DB

可以从 ncbi ftp blastdb 处下载 FASTA 或者 BLAST DB,然后从 accession2taxid 处下载 accession 与 taxid,gi 的关系。

wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/nr-prot-metadata.json
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt-nucl-metadata.json
grep tar.gz nr-nucl-metadata.json | sed 's/"//g' | sed 's/,//g' | while read dd ; do wget -c $dd ; done
grep tar.gz nt-nucl-metadata.json | sed 's/"//g' | sed 's/,//g' | while read dd ; do wget -c $dd ; done


wget -c ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz


tar -xzf nr*.gz
tar -xzf nt*.gz
tar -xzf prot.accession2taxid.gz
tar -xzf nucl_gb.accession2taxid.gz

## 或者可以用BLAST包 update_blastdb.pl --showall
## nohup update_blastdb.pl --decompress nr >out.log 2>&1 &
##  GI number/ ACCESSION:  https://www.jianshu.com/p/84500d6c7aea
##  gb/WGS/TSA/... :  https://zhuanlan.zhihu.com/p/106664362

随后:BLAST(NT)/Dimond(NR) --> accession2taxid --> NCBI Taxonomy进行注释