Normalization
一些生信常见的 Normalization 方法
Scaling
Read Counts
Gene ==========================================================
>>>>>>>>>-----------<<<<<<<<< >>>>>>>>>-----------<<<<<<<<<
Read Counts : 3 Mapped 到 Gene/Contig 上的Reads数
Fragment Counts : 2 至少有一端 Mapped 到 Gene/Contig 上的 PE_reads pairs 数
Read Counts 通常是raw OTU 丰度单位;但理论上,长度更长的Gene有机会产生更多Reads,如果想要定量基因的丰度,则需要关于基因长度进行Normalize
CPM
- Scaled by Sequencing_Depth (All_Mapped_Reads) $$CPM_{Gene_i}=\frac{MappedReads_i}{\sum(MappedReads)}\times 10^6$$
也称RPM
TPM
- Scaled by GeneLength $$A_i=\frac{MappedReads_i}{Length(Gene_i)}\times 10^3$$
- Scaled by Sequencing_Depth (All_Mapped_Reads) $$TPM_{Gene_i}=\frac{A_i}{\sum(A)}\times 10^6$$
常见于RNA定量
RPKM/FPKM
RPKM 使用 Mapped_Read_Counts 而 FPKM 使用 Mapped_Fragment_Counts,而Fragment只存在于双端测序数据中。
$$FPKM=\frac{MappedFragments_i\times 10^9}{\sum(MappedFragments)\times Length(Gene_i)}$$ $$=\frac{MappedFragments_i}{AllMappedFragments(per10^6)\times Length_{Gene_i}(kb)}$$
它们与TPM的区别只在Scale的先后顺序,最终:多样本情况下,单个样本TPM值的总和相等,而单个样本RPKM值的总和会有不同。因此某Gene的TPM可以理解为其占总体表达量的相对比例,更适合RNA定量分析。(RPKM再scale by RPKM_SUM一下也许可以达成相似效果??)
