Skip to content

Basis Categorical

教材:《统计学(原书第五版)》
关联:点估计$\hat{\theta}$、置信区间离散分布

对于分类(类型)数据的统计可以制成 单向表 与 双向表(又称:列联表);此外,分类数据的回归分析见 Basis_Regression 定性变量

单向表

示例

单向表只有一行;e.g. A,B,C 三条生产线当日生产的产品数分别为 22,19,20

A B C
22 19 20

类型概率推断

考虑一个多项实验(见),它有$N$次独立试验,每次试验都有$k$个可能结果,得到下表:

1 2 3 ... k
$n_1$ $n_2$ $n_3$ ... $n_k$

将多项实验简化二项实验(一系列0/1试验):选取 $n_i$ 为S样本,$\sum (其余所有n_j$) 为F样本;于是:

  • $i$类型 二项参数 成功率$p_i$

    • 点估计 $\hat{p_i}=\frac{n_i}{N}$
    • $E(\hat{p_i})=p_i$
    • $V(\hat{p_i})=\frac{p_i(1-p_i)}{N}$
    • $p_i$ 的置信区间:$\hat{p_i} \pm z_{\alpha/2}\sqrt{\frac{\hat{p_i}(1-\hat{p_i})}{N}}$;随即可以知晓 $n_i=Np_i$ 的置信区间
  • 一对类型($i$,$j$)的概率差: $E(\hat{p_i}-\hat{p_j})=p_i-p_j$,

    • $Cov(\hat{p_i},\hat{p_j})\=E[(\hat{p_i}-p_i)(\hat{p_j}-p_j)]\=E[(\frac{n_i}{N}-p_i)(\frac{n_j}{N}-p_j)]\=\frac{1}{N^2}E[(n_i-Np_i)(n_j-Np_j)]\=\frac{1}{N^2}Cov(n_i,n_j)\=\frac{1}{N^2}(-Np_ip_j)\=\frac{-p_ip_j}{N}$
    • $V(\hat{p_i}-\hat{p_j})\=V(\hat{p_i})+V(\hat{p_j})-2Cov(\hat{p_i},\hat{p_j})\=\frac{p_i(1-p_i)}{N}+\frac{p_j(1-p_j)}{N}+\frac{2p_ip_j}{N}$
    • $p_i-p_j$ 的置信区间:$(\hat{p_i}-\hat{p_j}) \pm z_{\alpha/2}\sigma_{(\hat{p_i}-\hat{p_j})}$
    • 即:$(\hat{p_i}-\hat{p_j}) \pm z_{\alpha/2}\sqrt{V(\hat{p_i}-\hat{p_j})}$
  • 假设检验

    • $H_0: p_1=p_2=p_3=...=p_k=\frac{N}{k}$
    • $H_a: 至少有一对概率不相等$
    • $n_i,E(n_i)$ 由 $p_i,E(p_i)$求得
    • 检验统计量 $\chi^2=\sum\limits_{i=1}^{k}\frac{[n_i-E(n_i)]^2}{E(n_i)}$,$df=k-1$
    • 如果离差$[n_i-E(n_i)]^2$较大,则$\chi^2$的预期将大于期望(理想状态下,观测值与期望值应该相等,离差为0)
    • (上侧检验)拒绝阈:$\chi^2 > \chi^2_{\alpha}$

双向表

示例

一般的 $r \times c$ 列联表 有$r$行 $c$列 $N=r \times c$单元;e.g. 生产线 W1 当日生产的 V1 产品数为 100

- W1 W2 W3
V1 100 19 20
V2 6 8 7
V3 10 16 12
V4 11 15 13

每个单元用 $n_{rc}$ 表示,例如:$n_{12}=19$
行、列可视为两个变量:W变量有3个类型,V变量有4个类型

类型概率推断

  • 独立性检验

    • (大样本)每个单元的期望计数 > 5
    • $H_0$:W、V 两个变量相互独立
    • $H_a$:W、V 两个变量相关
    • $\hat{E}(n_{ij})=N\times第i行边缘概率\times第j列边缘概率=\frac{(第i行和)(第j列和)}{N}$
    • 检验统计量 $\chi^2=\sum\limits_{j=1}^{c}\sum\limits_{i=1}^{r}\frac{[n_{ij}-\hat{E}(n_{ij})]^2}{\hat{E}(n_{ij})}$,$df=(r-1)(c-1)$
    • 如果离差$[n_{ij}-\hat{E}(n_{ij})]^2$较大,则$\chi^2$的预期将大于期望(理想状态下,观测值与期望值应该相等,离差为0)
    • (上侧检验)拒绝阈:$\chi^2 > \chi^2_{\alpha}$
  • Fisher 精确检验:对 $2 \times 2$ 或 $2 \times c$ 的双向表进行更加精确的独立性检验

    • (小样本)
    • $2 \times c$ 表中可选一列为 Positive,合并其余列,由是等效于$2 \times 2$ 表
    • 超几何 RECALL: 集合N由r个S、(N-r)个F组成;无放回地随机抽取n个元素;Y表示n中S的个数
    • $p(y)=\frac{\binom{r}{y}\binom{N-r}{n-y}}{\binom{N}{n}}$
    • 超几何概率 $p=\frac{\binom{S_{ALL}}{S_Positive}\binom{F_{ALL}}{F_Positive}}{\binom{ALL}{Positive}}$ , S_Positive表示此单元格之值,S_ALL表示S行之和,ALL表示表格总和,Positive表示此列之和
    • 如果$p<\alpha$,拒绝原假设
-- Positive Neg1 Neg2 Neg3 Neg4
S -- -- -- -- --
F -- -- -- -- --

固定边缘和

设计试验时,固定双向表的行和列和;e.g. 列和都是100

其独立性检验与普通的双向表相同

参考

Fisher 精确检验:https://zhuanlan.zhihu.com/p/434017609

Tschuproff / Pearson contingency coefficient: $\chi^2$ 被用于度量物种间的关联(基于0/1数据)

更多Contingency Table 统计见 Ecology Qualitative