7.12 小结¶

小率把这一章的纸页摊开：原假设、备择假设、p 值、α、功效、t 检验、χ²、A/B 测试……看起来像一大串工具。均哥把它们重新排成一张路线图：先问问题是什么，再看数据是什么，最后选检验。

我现在最怕的是：题目一变，就不知道该用哪个检验。

别先背工具名。先判断：比较的是均值、比例、频数，还是排名。

7.12.1 一页速查图¶

图 7.12.1 假设检验从写假设开始，经过选检验、算统计量和 p 值，最后落到效应大小与区间报告。

7.12.2 核心知识地图¶

假设检验的完整链条可以压成五步：

写清楚假设：\(H_0\) 是“默认世界”，\(H_1\) 是你想寻找的偏离。
选合适检验：均值用 z/t，比例用比例 z，分类频数用 χ²，配对先看差值，偏态或排名考虑非参数。
算统计量和 p 值：p 值是“如果 \(H_0\) 成立，看到当前或更极端数据的概率”。
控制错误风险：α 控制第一类错误，β 表示第二类错误，功效是 \(1-\beta\)。
报告实际意义：只报显著不够，还要报效应大小、置信区间和实验质量检查。

三个最常见误读

p 值不是 \(H_0\) 为真的概率；不显著不等于没有效应；p 值越小也不代表效应越大。

7.12.3 检验选择速查表¶

数据问题	常用检验	先问一句
一个均值 vs 基准	z 检验 / 单样本 t	总体标准差是否已知？
两个独立均值	Welch t	两组是否独立？
同一对象前后	配对 t / Wilcoxon	能不能先算差值？
一个比例或两个比例	比例 z 检验	成功/失败次数是否足够大？
分类频数是否符合理论比例	χ² 拟合优度	期望频数是否太小？
两个分类变量是否有关	χ² 独立性	表格里的每格是人数吗？
偏态、离群值、评分	非参数检验	是否更适合看排名？
很多个 p 值	Bonferroni / BH-FDR	要控 FWER 还是 FDR？
产品随机实验	A/B 测试	指标、MDE、样本量是否事前确定？

7.12.4 决策树¶

先看数据类型
├─ 数值型
│  ├─ 一组 vs 基准 → z / t
│  ├─ 两组独立 → Welch t；偏态严重 → Mann-Whitney U
│  ├─ 同一对象前后 → 配对 t；偏态严重 → Wilcoxon
│  └─ 三组及以上 → ANOVA；偏态严重 → Kruskal-Wallis
├─ 比例型
│  ├─ 一组比例 vs 基准 → 单比例 z
│  └─ 两组比例 → 两比例 z / A/B 测试
└─ 分类频数
   ├─ 一个分类变量 vs 理论比例 → χ² 拟合优度
   └─ 两个分类变量是否有关 → χ² 独立性

那“选检验”其实不是背答案，是先给数据分类。

对。统计工具很多，但入口问题就那几类。

7.12.5 报告模板¶

一次规范检验应该这样报告

我们检验了 \(H_0: \theta=\theta_0\) 与 \(H_1: \theta\neq\theta_0\)。使用 Welch t 检验，统计量 \(t=2.31\)，自由度约为 38，p=0.026。样本均值差为 4.2，95% 置信区间为 [0.5, 7.9]。在 α=0.05 下拒绝 \(H_0\)，但仍需结合效应大小和研究设计判断实际意义。

小率的笔记本

假设检验不是“p<0.05 自动赢”。它是一套控制随机误差的决策语言：先写 \(H_0/H_1\)，再选检验，算 p 值，最后同时报告效应大小、置信区间、错误风险和实际意义。

7.12.9 练一练¶

本章核心练习题汇总。建议先动笔再看参考答案。

练习 7.1.1 — 设定假设

一公司宣称其外卖平均到达时间 ≤ 30 分钟, 你想用数据反驳。 H₀ 与 H₁ 怎么写?

参考答案

H₀: μ = 30 (或 μ ≤ 30); H₁: μ > 30 (右侧检验)。

练习 7.1.2 — 决策

若 z_obs = 1.4, α = 0.05 双侧, 拒还是不拒 H₀?

参考答案

|1.4| < 1.96, 不拒 H₀ 。

练习 7.2.1 — 单样本 z

某机器零件直径 μ₀ = 10mm, σ = 0.2。抽 25 个 \(\bar{x}=10.08\)。 α=0.05 双侧。

参考答案

z = 0.08/(0.⅖) = 2.0。|2.0| > 1.96 → 拒 H₀。生产线偏大。

练习 7.2.2 — 双样本比例

A 班通过率 50/80, B 班 65/80。通过率有显著差异吗? α=0.05。

参考答案

p̂_A=0.625, p̂_B=0.8125, p̂=115/160=0.719。 SE = √(0.719×0.281×2/80) = 0.0710。 z = (0.8125-0.625)/0.071 = 2.64。 |z|>1.96 → 拒 H₀, 有差异 (B 班高)。

练习 7.3.1 — 单样本 t

某药副作用发生率试验 25 名患者, 副作用次数均值 1.8 次, s=0.9。检验是否大于"业界基线 1.5"。 α=0.05。

参考答案

H₀: μ=1.5, H₁: μ>1.5。 t=(1.8-1.5)/(0.9/5)=1.67, df=24, \(t^*\)右单侧=1.711。 1.67 < 1.711 → 不拒 H₀ (差一点点, 贴临界)。

练习 7.3.2 — 独立双样本

新教学法 n=12 \(\bar{x}=85, s=8\), 旧教学法 n=15 \(\bar{x}=78, s=10\)。新法显著更好? α=0.05 单侧。

参考答案

Welch t ≈ (85-78)/√(64/12+100/15) = 7/3.46 = 2.02。 df ≈ 24, \(t^*\) 单侧 ≈ 1.711。 2.02 > 1.711 → 拒 H₀, 新法显著更好。

练习 7.4.1 — 解读

一项研究 p = 0.03, α=0.05。下列哪些对? (a) H₀ 为真的概率 = 3% (b) 在 H₀ 下看到这种或更极端结果的概率 = 3% © 因 p<α, 拒 H₀ (d) H₁ 为真的概率 = 97%

参考答案

(b)© 对; (a)(d) 错 (经典误读)。

练习 7.4.2 — 计算

单侧右尾 z 检验, z_obs = 1.5。 p =? α=0.05 拒不拒?

参考答案

p = 1 − Φ(1.5) = 0.0668。 0.0668 > 0.05, 不拒 H₀。

练习 7.5.1 — 选 α

下面情景应该选大 α 还是小 α? (a) 飞机制造质量检测 (b) 探索性社会调查 © 重大新药上市前最后一关 (d) 用户行为 A/B 测试

参考答案

(a) 小 α=0.001 (后果严重); (b) 大 α=0.10 (探索); © 小 α=0.01 或更严; (d) 默认 0.05。

练习 7.5.2 — α 与 β 关系

缩小 α 会让 β 变大还是变小? 直觉解释。

参考答案

α↓ → 拒绝域窄 → 真有效应也更难落入 → β↑。二者此消彼长 — 唯一的解决方法是增 n。

练习 7.6.1 — 概念

"α=0.05 检验未拒 H₀, 所以 H₀ 一定真"——对错? 解释。

参考答案

错。没拒 H₀ 不代表 H₀ 真, 可能功效不够 (β 大) 漏检了真效应。

练习 7.6.2 — Power 计算

单侧 z, μ₀=50, μ₁=55, σ=10, n=16, α=0.05。 Power?

参考答案

\(\sqrt{n}\delta/\sigma = 4 \cdot 5/10 = 2\)。 Power = Φ(2 − 1.645) = Φ(0.355) ≈ 0.639。

练习 7.6.3 — n 反算

要在 Cohen's d=0.4, α=0.05 双侧, power=0.90 下检出, 单样本需多少 n?

参考答案

n = (z₀.₀₂₅ + z₀.₁₀)²/d² = (1.96 + 1.282)²/0.16 = 65.7 → 66。

练习 7.7.1 — 拟合优度

某基因变异符合 9:3:3:1 (Mendel 比例)? 320 个观测分别为 175, 60, 65, 20。 α=0.05。

参考答案

期望: 320×9/16=180, 60, 60, 20。 χ² = (5²/180+0+25/60+0) = 0.139+0+0.417+0 = 0.556。 df=3, \(\chi^2_{0.05,3}=7.81\)。不拒, 数据与 Mendel 比例相符。

练习 7.7.2 — 列联表

某调查教育水平 (高/中/低) vs 投票 (赞成/反对) 列联表 χ²=15.2, df=2。 α=0.05 拒不拒?

参考答案

\(\chi^2_{0.05,2}=5.99\)。 15.2>5.99 → 拒 H₀, 教育与投票相关。

练习 7.8.1 — 配对设计判断

参考答案

练习 7.8.2 — 计算

8 名运动员训练前后 100m 成绩差 d = -0.4, -0.3, -0.2, -0.5, -0.1, -0.4, -0.2, -0.3 秒 (负=进步)。 α=0.05 单侧 (训练有效?), 配对 t = ?

参考答案

\(\bar{d} = -0.30\), \(s_d ≈ 0.135\), t = -0.30/(0.135/√8) = -6.29。 df=7, 单侧左 t* = -1.895。 t < t* → 拒 H₀, 训练显著提升 (成绩降低)。

练习 7.9.1 — 选择检验

参考答案

练习 7.9.2 — 概念

"非参数检验比参数检验功效高"——对错? 解释。

参考答案

错。一般情况下非参数功效低 (~95% 渐近相对效率)。优势在抗分布违反与离群值。

练习 7.10.1 — Bonferroni

20 个 A/B 测试中 3 个 p < 0.01。整体 FWER=0.05 校正后哪些显著?

参考答案

Bonferroni 阈值 = 0.05/20 = 0.0025。必须 p<0.0025 才显著。 0.01 不够 → 全部接受 H₀。极保守。

练习 7.10.2 — FDR

100 次检验, BH 在 q=0.10 下拒了 20 个。期望多少个是假阳性?

参考答案

FDR ≤ 0.10, 即拒之中假阳期望比例 ≤ 10%, 即 20×10%=2 个。

练习 7.11.1 — 样本量

希望从 5% → 5.5% 的 0.5pp 提升, α=0.05 双侧, power=0.80, 每组多少 n?

参考答案

用 Cohen's h ≈ 2×(arcsin√0.055 − arcsin√0.05) ≈ 0.0228。 n = (1.96+0.84)²/0.0228² ≈ 15097 /组。极小效应需巨大样本。

练习 7.11.2 — 概念

"已经跑了一周, p=0.07, 再观察一天看会不会降到 0.05" — 这种做法对吗?

参考答案

错。这是经典的 peeking, 实际 Type I 已超 5%。应预先定 n 或采用顺序检验 / Bayesian。