跳转至

7.12   小结

小率把这一章的纸页摊开:原假设、备择假设、p 值、α、功效、t 检验、χ²、A/B 测试……看起来像一大串工具。均哥把它们重新排成一张路线图:先问问题是什么,再看数据是什么,最后选检验。

我现在最怕的是:题目一变,就不知道该用哪个检验。
别先背工具名。先判断:比较的是均值、比例、频数,还是排名。

7.12.1   一页速查图

图 7.12.1 假设检验核心知识地图

图 7.12.1   假设检验从写假设开始,经过选检验、算统计量和 p 值,最后落到效应大小与区间报告。

7.12.2   核心知识地图

假设检验的完整链条可以压成五步:

  1. 写清楚假设\(H_0\) 是“默认世界”,\(H_1\) 是你想寻找的偏离。
  2. 选合适检验:均值用 z/t,比例用比例 z,分类频数用 χ²,配对先看差值,偏态或排名考虑非参数。
  3. 算统计量和 p 值:p 值是“如果 \(H_0\) 成立,看到当前或更极端数据的概率”。
  4. 控制错误风险:α 控制第一类错误,β 表示第二类错误,功效是 \(1-\beta\)
  5. 报告实际意义:只报显著不够,还要报效应大小、置信区间和实验质量检查。

三个最常见误读

p 值不是 \(H_0\) 为真的概率;不显著不等于没有效应;p 值越小也不代表效应越大。

7.12.3   检验选择速查表

数据问题 常用检验 先问一句
一个均值 vs 基准 z 检验 / 单样本 t 总体标准差是否已知?
两个独立均值 Welch t 两组是否独立?
同一对象前后 配对 t / Wilcoxon 能不能先算差值?
一个比例或两个比例 比例 z 检验 成功/失败次数是否足够大?
分类频数是否符合理论比例 χ² 拟合优度 期望频数是否太小?
两个分类变量是否有关 χ² 独立性 表格里的每格是人数吗?
偏态、离群值、评分 非参数检验 是否更适合看排名?
很多个 p 值 Bonferroni / BH-FDR 要控 FWER 还是 FDR?
产品随机实验 A/B 测试 指标、MDE、样本量是否事前确定?

7.12.4   决策树

先看数据类型
├─ 数值型
│  ├─ 一组 vs 基准 → z / t
│  ├─ 两组独立 → Welch t;偏态严重 → Mann-Whitney U
│  ├─ 同一对象前后 → 配对 t;偏态严重 → Wilcoxon
│  └─ 三组及以上 → ANOVA;偏态严重 → Kruskal-Wallis
├─ 比例型
│  ├─ 一组比例 vs 基准 → 单比例 z
│  └─ 两组比例 → 两比例 z / A/B 测试
└─ 分类频数
   ├─ 一个分类变量 vs 理论比例 → χ² 拟合优度
   └─ 两个分类变量是否有关 → χ² 独立性
那“选检验”其实不是背答案,是先给数据分类。
对。统计工具很多,但入口问题就那几类。

7.12.5   报告模板

一次规范检验应该这样报告

我们检验了 \(H_0: \theta=\theta_0\)\(H_1: \theta\neq\theta_0\)。使用 Welch t 检验,统计量 \(t=2.31\),自由度约为 38,p=0.026。样本均值差为 4.2,95% 置信区间为 [0.5, 7.9]。在 α=0.05 下拒绝 \(H_0\),但仍需结合效应大小和研究设计判断实际意义。

小率的笔记本

假设检验不是“p<0.05 自动赢”。它是一套控制随机误差的决策语言:先写 \(H_0/H_1\),再选检验,算 p 值,最后同时报告效应大小、置信区间、错误风险和实际意义。


7.12.9   练一练

本章核心练习题汇总。建议先动笔再看参考答案。

练习 7.1.1 — 设定假设

一公司宣称其外卖平均到达时间 ≤ 30 分钟, 你想用数据反驳。 H₀ 与 H₁ 怎么写?

参考答案

H₀: μ = 30 (或 μ ≤ 30); H₁: μ > 30 (右侧检验)。

练习 7.1.2 — 决策

若 z_obs = 1.4, α = 0.05 双侧, 拒还是不拒 H₀?

参考答案

|1.4| < 1.96, 不拒 H₀

练习 7.2.1 — 单样本 z

某机器零件直径 μ₀ = 10mm, σ = 0.2。 抽 25 个 \(\bar{x}=10.08\)。 α=0.05 双侧。

参考答案

z = 0.08/(0.⅖) = 2.0。|2.0| > 1.96 → 拒 H₀。生产线偏大。

练习 7.2.2 — 双样本比例

A 班通过率 50/80, B 班 65/80。 通过率有显著差异吗? α=0.05。

参考答案

p̂_A=0.625, p̂_B=0.8125, p̂=115/160=0.719。 SE = √(0.719×0.281×2/80) = 0.0710。 z = (0.8125-0.625)/0.071 = 2.64。 |z|>1.96 → 拒 H₀, 有差异 (B 班高)。

练习 7.3.1 — 单样本 t

某药副作用发生率试验 25 名患者, 副作用次数均值 1.8 次, s=0.9。检验是否大于"业界基线 1.5"。 α=0.05。

参考答案

H₀: μ=1.5, H₁: μ>1.5。 t=(1.8-1.5)/(0.9/5)=1.67, df=24, \(t^*\)右单侧=1.711。 1.67 < 1.711 → 不拒 H₀ (差一点点, 贴临界)。

练习 7.3.2 — 独立双样本

新教学法 n=12 \(\bar{x}=85, s=8\), 旧教学法 n=15 \(\bar{x}=78, s=10\)。 新法显著更好? α=0.05 单侧。

参考答案

Welch t ≈ (85-78)/√(64/12+100/15) = 7/3.46 = 2.02。 df ≈ 24, \(t^*\) 单侧 ≈ 1.711。 2.02 > 1.711 → 拒 H₀, 新法显著更好。

练习 7.4.1 — 解读

一项研究 p = 0.03, α=0.05。下列哪些对? (a) H₀ 为真的概率 = 3% (b) 在 H₀ 下看到这种或更极端结果的概率 = 3% © 因 p<α, 拒 H₀ (d) H₁ 为真的概率 = 97%

参考答案

(b)© 对; (a)(d) 错 (经典误读)。

练习 7.4.2 — 计算

单侧右尾 z 检验, z_obs = 1.5。 p =? α=0.05 拒不拒?

参考答案

p = 1 − Φ(1.5) = 0.0668。 0.0668 > 0.05, 不拒 H₀。

练习 7.5.1 — 选 α

下面情景应该选大 α 还是小 α? (a) 飞机制造质量检测 (b) 探索性社会调查 © 重大新药上市前最后一关 (d) 用户行为 A/B 测试

参考答案

(a) 小 α=0.001 (后果严重); (b) 大 α=0.10 (探索); © 小 α=0.01 或更严; (d) 默认 0.05。

练习 7.5.2 — α 与 β 关系

缩小 α 会让 β 变大还是变小? 直觉解释。

参考答案

α↓ → 拒绝域窄 → 真有效应也更难落入 → β↑。 二者此消彼长 — 唯一的解决方法是增 n

练习 7.6.1 — 概念

"α=0.05 检验未拒 H₀, 所以 H₀ 一定真"——对错? 解释。

参考答案

错。 没拒 H₀ 不代表 H₀ 真, 可能功效不够 (β 大) 漏检了真效应。

练习 7.6.2 — Power 计算

单侧 z, μ₀=50, μ₁=55, σ=10, n=16, α=0.05。 Power?

参考答案

\(\sqrt{n}\delta/\sigma = 4 \cdot 5/10 = 2\)。 Power = Φ(2 − 1.645) = Φ(0.355) ≈ 0.639。

练习 7.6.3 — n 反算

要在 Cohen's d=0.4, α=0.05 双侧, power=0.90 下检出, 单样本需多少 n?

参考答案

n = (z₀.₀₂₅ + z₀.₁₀)²/d² = (1.96 + 1.282)²/0.16 = 65.7 → 66。

练习 7.7.1 — 拟合优度

某基因变异符合 9:3:3:1 (Mendel 比例)? 320 个观测分别为 175, 60, 65, 20。 α=0.05。

参考答案

期望: 320×9/16=180, 60, 60, 20。 χ² = (5²/180+0+25/60+0) = 0.139+0+0.417+0 = 0.556。 df=3, \(\chi^2_{0.05,3}=7.81\)。 不拒, 数据与 Mendel 比例相符。

练习 7.7.2 — 列联表

某调查教育水平 (高/中/低) vs 投票 (赞成/反对) 列联表 χ²=15.2, df=2。 α=0.05 拒不拒?

参考答案

\(\chi^2_{0.05,2}=5.99\)。 15.2>5.99 → 拒 H₀, 教育与投票相关。

练习 7.8.1 — 配对设计判断

下列哪些是配对? (a) 70 名学生分两班用不同教学法, 期末成绩对比 (b) 同 30 名学生先用旧法 6 周再用新法 6 周, 比较成绩 © 比较左眼戴隐形 vs 右眼裸眼视力 (d) A 商店与 B 商店周一销售额对比

参考答案

(b) 配对 (前后); © 配对 (自身左右); (a)(d) 独立。

练习 7.8.2 — 计算

8 名运动员训练前后 100m 成绩差 d = -0.4, -0.3, -0.2, -0.5, -0.1, -0.4, -0.2, -0.3 秒 (负=进步)。 α=0.05 单侧 (训练有效?), 配对 t = ?

参考答案

\(\bar{d} = -0.30\), \(s_d ≈ 0.135\), t = -0.30/(0.135/√8) = -6.29。 df=7, 单侧左 t* = -1.895。 t < t* → 拒 H₀, 训练显著提升 (成绩降低)。

练习 7.9.1 — 选择检验

下列各应选什么? (a) 比较 5 个城市的房价中位数 (b) 同一组学生 3 次测验成绩 © 排名相关性 (Top10 vs 销量)

参考答案

(a) Kruskal-Wallis (中位数比较, 通常偏态); (b) Friedman (>2 组配对); © Spearman (排名 = 秩)。

练习 7.9.2 — 概念

"非参数检验比参数检验功效高"——对错? 解释。

参考答案

错。 一般情况下非参数功效 (~95% 渐近相对效率)。 优势在抗分布违反与离群值。

练习 7.10.1 — Bonferroni

20 个 A/B 测试中 3 个 p < 0.01。 整体 FWER=0.05 校正后哪些显著?

参考答案

Bonferroni 阈值 = 0.05/20 = 0.0025。 必须 p<0.0025 才显著。 0.01 不够 → 全部接受 H₀。 极保守。

练习 7.10.2 — FDR

100 次检验, BH 在 q=0.10 下拒了 20 个。 期望多少个是假阳性?

参考答案

FDR ≤ 0.10, 即 拒之中假阳期望比例 ≤ 10%, 即 20×10%=2 个。

练习 7.11.1 — 样本量

希望从 5% → 5.5% 的 0.5pp 提升, α=0.05 双侧, power=0.80, 每组多少 n?

参考答案

用 Cohen's h ≈ 2×(arcsin√0.055 − arcsin√0.05) ≈ 0.0228。 n = (1.96+0.84)²/0.0228² ≈ 15097 /组。 极小效应需巨大样本。

练习 7.11.2 — 概念

"已经跑了一周, p=0.07, 再观察一天看会不会降到 0.05" — 这种做法对吗?

参考答案

错。 这是经典的 peeking, 实际 Type I 已超 5%。 应预先定 n 或采用顺序检验 / Bayesian。