【四格表卡方检验PPT课件】一、课程简介
本课件旨在介绍四格表卡方检验的基本原理与实际应用。通过本节课的学习,学生将掌握如何利用卡方检验对两个分类变量之间的独立性进行统计推断,并能够正确解读检验结果。
二、什么是四格表?
在统计学中,四格表(2×2列联表)是用于分析两个二元分类变量之间关系的一种数据表格形式。它由两行和两列组成,每个单元格表示不同类别组合的频数。
例如:
|| 变量B1 | 变量B2 | 合计 |
|----------|--------|--------|------|
| 变量A1 | a| b| a+b|
| 变量A2 | c| d| c+d|
| 合计 | a+c| b+d| n|
其中,a、b、c、d 分别代表各组的观察频数,n 为总样本数。
三、卡方检验的基本思想
卡方检验是一种非参数检验方法,用于判断观察频数与理论频数之间是否存在显著差异。其核心思想是:如果两个变量之间没有关联(即独立),那么观察到的频数应接近于根据概率计算出的期望频数。
卡方统计量公式如下:
$$
\chi^2 = \sum \frac{(O - E)^2}{E}
$$
其中:
- $ O $ 表示观察频数;
- $ E $ 表示期望频数;
- $ \sum $ 表示对所有单元格求和。
四、四格表卡方检验的步骤
1. 建立假设
- 原假设 $ H_0 $:两个变量相互独立;
- 备择假设 $ H_1 $:两个变量不独立。
2. 计算期望频数
每个单元格的期望频数为:
$$
E_{ij} = \frac{(\text{行合计}) \times (\text{列合计})}{\text{总样本数}}
$$
3. 计算卡方统计量
使用上述公式计算卡方值。
4. 确定自由度与临界值
自由度 $ df = (r - 1)(c - 1) $,其中 r 为行数,c 为列数。对于四格表,$ df = 1 $。
5. 比较卡方值与临界值或查P值
根据卡方分布表或使用统计软件得出对应的P值,判断是否拒绝原假设。
6. 结论
若 P < 显著性水平(如 0.05),则拒绝原假设,认为变量间存在关联;否则接受原假设。
五、适用条件
进行四格表卡方检验时,需满足以下条件:
- 样本容量较大,通常要求每个单元格的期望频数 $ E \geq 5 $,若部分单元格小于 5,可考虑使用Yates校正或改用Fisher精确检验。
- 数据为计数资料,而非连续数值。
- 观察值之间相互独立。
六、实例分析
案例背景:某医院研究吸烟与肺癌的关系,收集了 200 名患者的数据,结果如下:
|| 肺癌 | 非肺癌 | 合计 |
|----------|------|--------|------|
| 吸烟 | 60 | 40 | 100|
| 不吸烟 | 20 | 80 | 100|
| 合计 | 80 | 120| 200|
步骤:
1. 计算期望频数:
- 吸烟且肺癌:$ E = \frac{100 \times 80}{200} = 40 $
- 吸烟且非肺癌:$ E = \frac{100 \times 120}{200} = 60 $
- 不吸烟且肺癌:$ E = \frac{100 \times 80}{200} = 40 $
- 不吸烟且非肺癌:$ E = \frac{100 \times 120}{200} = 60 $
2. 计算卡方值:
$$
\chi^2 = \frac{(60-40)^2}{40} + \frac{(40-60)^2}{60} + \frac{(20-40)^2}{40} + \frac{(80-60)^2}{60} = 10 + 6.67 + 10 + 6.67 = 33.34
$$
3. 查表得 $ \chi^2_{0.05,1} = 3.84 $,显然 $ 33.34 > 3.84 $,因此拒绝原假设,说明吸烟与肺癌之间存在显著关联。
七、注意事项
- 卡方检验仅能判断变量间是否存在关联,不能说明因果关系。
- 对于小样本数据,建议使用 Fisher 精确检验。
- 当出现多个单元格期望频数过小时,应谨慎解释结果。
八、总结
四格表卡方检验是一种常用的统计方法,适用于分析两个二元变量之间的独立性。通过合理的假设设定、期望频数计算和卡方值的比较,可以有效地判断变量间是否存在显著联系。掌握该方法有助于在医学、社会学、市场调研等领域进行数据分析与决策支持。