7.12 小结¶
小率把这一章的纸页摊开:原假设、备择假设、p 值、α、功效、t 检验、χ²、A/B 测试……看起来像一大串工具。均哥把它们重新排成一张路线图:先问问题是什么,再看数据是什么,最后选检验。
7.12.1 一页速查图¶
7.12.2 核心知识地图¶
假设检验的完整链条可以压成五步:
- 写清楚假设:\(H_0\) 是“默认世界”,\(H_1\) 是你想寻找的偏离。
- 选合适检验:均值用 z/t,比例用比例 z,分类频数用 χ²,配对先看差值,偏态或排名考虑非参数。
- 算统计量和 p 值:p 值是“如果 \(H_0\) 成立,看到当前或更极端数据的概率”。
- 控制错误风险:α 控制第一类错误,β 表示第二类错误,功效是 \(1-\beta\)。
- 报告实际意义:只报显著不够,还要报效应大小、置信区间和实验质量检查。
三个最常见误读
p 值不是 \(H_0\) 为真的概率;不显著不等于没有效应;p 值越小也不代表效应越大。
7.12.3 检验选择速查表¶
| 数据问题 | 常用检验 | 先问一句 |
|---|---|---|
| 一个均值 vs 基准 | z 检验 / 单样本 t | 总体标准差是否已知? |
| 两个独立均值 | Welch t | 两组是否独立? |
| 同一对象前后 | 配对 t / Wilcoxon | 能不能先算差值? |
| 一个比例或两个比例 | 比例 z 检验 | 成功/失败次数是否足够大? |
| 分类频数是否符合理论比例 | χ² 拟合优度 | 期望频数是否太小? |
| 两个分类变量是否有关 | χ² 独立性 | 表格里的每格是人数吗? |
| 偏态、离群值、评分 | 非参数检验 | 是否更适合看排名? |
| 很多个 p 值 | Bonferroni / BH-FDR | 要控 FWER 还是 FDR? |
| 产品随机实验 | A/B 测试 | 指标、MDE、样本量是否事前确定? |
7.12.4 决策树¶
先看数据类型
├─ 数值型
│ ├─ 一组 vs 基准 → z / t
│ ├─ 两组独立 → Welch t;偏态严重 → Mann-Whitney U
│ ├─ 同一对象前后 → 配对 t;偏态严重 → Wilcoxon
│ └─ 三组及以上 → ANOVA;偏态严重 → Kruskal-Wallis
├─ 比例型
│ ├─ 一组比例 vs 基准 → 单比例 z
│ └─ 两组比例 → 两比例 z / A/B 测试
└─ 分类频数
├─ 一个分类变量 vs 理论比例 → χ² 拟合优度
└─ 两个分类变量是否有关 → χ² 独立性
7.12.5 报告模板¶
一次规范检验应该这样报告
我们检验了 \(H_0: \theta=\theta_0\) 与 \(H_1: \theta\neq\theta_0\)。使用 Welch t 检验,统计量 \(t=2.31\),自由度约为 38,p=0.026。样本均值差为 4.2,95% 置信区间为 [0.5, 7.9]。在 α=0.05 下拒绝 \(H_0\),但仍需结合效应大小和研究设计判断实际意义。
小率的笔记本
假设检验不是“p<0.05 自动赢”。它是一套控制随机误差的决策语言:先写 \(H_0/H_1\),再选检验,算 p 值,最后同时报告效应大小、置信区间、错误风险和实际意义。
7.12.9 练一练¶
本章核心练习题汇总。建议先动笔再看参考答案。
练习 7.1.1 — 设定假设
一公司宣称其外卖平均到达时间 ≤ 30 分钟, 你想用数据反驳。 H₀ 与 H₁ 怎么写?
参考答案
H₀: μ = 30 (或 μ ≤ 30); H₁: μ > 30 (右侧检验)。
练习 7.1.2 — 决策
若 z_obs = 1.4, α = 0.05 双侧, 拒还是不拒 H₀?
参考答案
|1.4| < 1.96, 不拒 H₀ 。
练习 7.2.1 — 单样本 z
某机器零件直径 μ₀ = 10mm, σ = 0.2。 抽 25 个 \(\bar{x}=10.08\)。 α=0.05 双侧。
参考答案
z = 0.08/(0.⅖) = 2.0。|2.0| > 1.96 → 拒 H₀。生产线偏大。
练习 7.2.2 — 双样本比例
A 班通过率 50/80, B 班 65/80。 通过率有显著差异吗? α=0.05。
参考答案
p̂_A=0.625, p̂_B=0.8125, p̂=115/160=0.719。 SE = √(0.719×0.281×2/80) = 0.0710。 z = (0.8125-0.625)/0.071 = 2.64。 |z|>1.96 → 拒 H₀, 有差异 (B 班高)。
练习 7.3.1 — 单样本 t
某药副作用发生率试验 25 名患者, 副作用次数均值 1.8 次, s=0.9。检验是否大于"业界基线 1.5"。 α=0.05。
参考答案
H₀: μ=1.5, H₁: μ>1.5。 t=(1.8-1.5)/(0.9/5)=1.67, df=24, \(t^*\)右单侧=1.711。 1.67 < 1.711 → 不拒 H₀ (差一点点, 贴临界)。
练习 7.3.2 — 独立双样本
新教学法 n=12 \(\bar{x}=85, s=8\), 旧教学法 n=15 \(\bar{x}=78, s=10\)。 新法显著更好? α=0.05 单侧。
参考答案
Welch t ≈ (85-78)/√(64/12+100/15) = 7/3.46 = 2.02。 df ≈ 24, \(t^*\) 单侧 ≈ 1.711。 2.02 > 1.711 → 拒 H₀, 新法显著更好。
练习 7.4.1 — 解读
一项研究 p = 0.03, α=0.05。下列哪些对? (a) H₀ 为真的概率 = 3% (b) 在 H₀ 下看到这种或更极端结果的概率 = 3% © 因 p<α, 拒 H₀ (d) H₁ 为真的概率 = 97%
参考答案
(b)© 对; (a)(d) 错 (经典误读)。
练习 7.4.2 — 计算
单侧右尾 z 检验, z_obs = 1.5。 p =? α=0.05 拒不拒?
参考答案
p = 1 − Φ(1.5) = 0.0668。 0.0668 > 0.05, 不拒 H₀。
练习 7.5.1 — 选 α
下面情景应该选大 α 还是小 α? (a) 飞机制造质量检测 (b) 探索性社会调查 © 重大新药上市前最后一关 (d) 用户行为 A/B 测试
参考答案
(a) 小 α=0.001 (后果严重); (b) 大 α=0.10 (探索); © 小 α=0.01 或更严; (d) 默认 0.05。
练习 7.5.2 — α 与 β 关系
缩小 α 会让 β 变大还是变小? 直觉解释。
参考答案
α↓ → 拒绝域窄 → 真有效应也更难落入 → β↑。 二者此消彼长 — 唯一的解决方法是增 n。
练习 7.6.1 — 概念
"α=0.05 检验未拒 H₀, 所以 H₀ 一定真"——对错? 解释。
参考答案
错。 没拒 H₀ 不代表 H₀ 真, 可能功效不够 (β 大) 漏检了真效应。
练习 7.6.2 — Power 计算
单侧 z, μ₀=50, μ₁=55, σ=10, n=16, α=0.05。 Power?
参考答案
\(\sqrt{n}\delta/\sigma = 4 \cdot 5/10 = 2\)。 Power = Φ(2 − 1.645) = Φ(0.355) ≈ 0.639。
练习 7.6.3 — n 反算
要在 Cohen's d=0.4, α=0.05 双侧, power=0.90 下检出, 单样本需多少 n?
参考答案
n = (z₀.₀₂₅ + z₀.₁₀)²/d² = (1.96 + 1.282)²/0.16 = 65.7 → 66。
练习 7.7.1 — 拟合优度
某基因变异符合 9:3:3:1 (Mendel 比例)? 320 个观测分别为 175, 60, 65, 20。 α=0.05。
参考答案
期望: 320×9/16=180, 60, 60, 20。 χ² = (5²/180+0+25/60+0) = 0.139+0+0.417+0 = 0.556。 df=3, \(\chi^2_{0.05,3}=7.81\)。 不拒, 数据与 Mendel 比例相符。
练习 7.7.2 — 列联表
某调查教育水平 (高/中/低) vs 投票 (赞成/反对) 列联表 χ²=15.2, df=2。 α=0.05 拒不拒?
参考答案
\(\chi^2_{0.05,2}=5.99\)。 15.2>5.99 → 拒 H₀, 教育与投票相关。
练习 7.8.1 — 配对设计判断
下列哪些是配对? (a) 70 名学生分两班用不同教学法, 期末成绩对比 (b) 同 30 名学生先用旧法 6 周再用新法 6 周, 比较成绩 © 比较左眼戴隐形 vs 右眼裸眼视力 (d) A 商店与 B 商店周一销售额对比
参考答案
(b) 配对 (前后); © 配对 (自身左右); (a)(d) 独立。
练习 7.8.2 — 计算
8 名运动员训练前后 100m 成绩差 d = -0.4, -0.3, -0.2, -0.5, -0.1, -0.4, -0.2, -0.3 秒 (负=进步)。 α=0.05 单侧 (训练有效?), 配对 t = ?
参考答案
\(\bar{d} = -0.30\), \(s_d ≈ 0.135\), t = -0.30/(0.135/√8) = -6.29。 df=7, 单侧左 t* = -1.895。 t < t* → 拒 H₀, 训练显著提升 (成绩降低)。
练习 7.9.1 — 选择检验
下列各应选什么? (a) 比较 5 个城市的房价中位数 (b) 同一组学生 3 次测验成绩 © 排名相关性 (Top10 vs 销量)
参考答案
(a) Kruskal-Wallis (中位数比较, 通常偏态); (b) Friedman (>2 组配对); © Spearman (排名 = 秩)。
练习 7.9.2 — 概念
"非参数检验比参数检验功效高"——对错? 解释。
参考答案
错。 一般情况下非参数功效低 (~95% 渐近相对效率)。 优势在抗分布违反与离群值。
练习 7.10.1 — Bonferroni
20 个 A/B 测试中 3 个 p < 0.01。 整体 FWER=0.05 校正后哪些显著?
参考答案
Bonferroni 阈值 = 0.05/20 = 0.0025。 必须 p<0.0025 才显著。 0.01 不够 → 全部接受 H₀。 极保守。
练习 7.10.2 — FDR
100 次检验, BH 在 q=0.10 下拒了 20 个。 期望多少个是假阳性?
参考答案
FDR ≤ 0.10, 即 拒之中假阳期望比例 ≤ 10%, 即 20×10%=2 个。
练习 7.11.1 — 样本量
希望从 5% → 5.5% 的 0.5pp 提升, α=0.05 双侧, power=0.80, 每组多少 n?
参考答案
用 Cohen's h ≈ 2×(arcsin√0.055 − arcsin√0.05) ≈ 0.0228。 n = (1.96+0.84)²/0.0228² ≈ 15097 /组。 极小效应需巨大样本。
练习 7.11.2 — 概念
"已经跑了一周, p=0.07, 再观察一天看会不会降到 0.05" — 这种做法对吗?
参考答案
错。 这是经典的 peeking, 实际 Type I 已超 5%。 应预先定 n 或采用顺序检验 / Bayesian。
