7.5 显著性水平¶

科学社团准备测试一套新的训练方法是否能提高投篮命中率。小率想等数据收完再决定“多小的 p 值算显著”。均哥摇摇头，把三张卡片放在桌上：

\(\alpha=0.10\)：探索，门槛宽松。
\(\alpha=0.05\)：常用，平衡选择。
\(\alpha=0.01\)：严格，需要更强证据。

显著性水平不是数据算出来的，而是在实验前定下的错误容忍度。

为什么 alpha 要提前定？数据出来以后看情况定，不是更灵活吗？

看完数据再定门槛，就像考试后改及格线。检验会失去约束。

7.5.1 alpha 是误报容忍度¶

显著性水平 \(\alpha\) 的定义是：

\[ \alpha=P(\text{拒绝 }H_0\mid H_0\text{ 为真}) \]

也就是：如果其实没有效果，我们愿意承受多大概率误判为“有效”。

它也叫：

第一类错误率（Type I error rate）。
假阳性率（false positive rate）。
显著性水平（significance level）。

一句话

\(\alpha\) 是研究者在看数据前设定的“误报上限”，不是 p 值，也不是效果大小。

7.5.2 alpha 越小，拒绝域越窄¶

在双侧检验里，\(\alpha\) 会被分到两端尾部。\(\alpha\) 越小，尾部拒绝域越窄，临界值越远，越难拒绝 \(H_0\)。

常用临界值：

\(\alpha\)	双侧 z 临界值
0.10	\(\pm1.645\)
0.05	\(\pm1.960\)
0.01	\(\pm2.576\)
0.001	\(\pm3.291\)

那 alpha 越小越严谨，是不是永远选 0.001 最好？

不一定。误报少了，漏报可能变多。严谨也有代价。

7.5.3 alpha 要按代价选择¶

不同场景对误报的容忍度不同。

场景	误报后果	alpha 倾向
探索性问卷	多发现一些线索，后续再验证	可稍宽松
课堂小实验	后果可控，重在学习	0.05 常用
药物审批	批准无效或有害药物	应更严格
重大科学发现	全球资源跟进、结论影响大	极严格

你知道吗

物理学里宣布新粒子发现常用 5σ 标准，对应的误报概率远小于 0.05。它不是因为统计学公式不同，而是因为错误发现的代价太高。

7.5.4 p 值和 alpha 的分工¶

不要把 p 值和 \(\alpha\) 混成一件事。

名称	何时确定	作用
\(\alpha\)	看数据前	设定误报容忍度
p 值	看数据后	衡量数据在 \(H_0\) 下有多罕见

决策规则仍然是：

\[ p<\alpha \Rightarrow \text{拒绝 }H_0 \]

若小率事先定 \(\alpha=0.05\)，p=0.04 就拒绝；若事先定 \(\alpha=0.01\)，同样的 p=0.04 就不拒绝。

不要把 0.05 当成科学分界线

0.05 是常用惯例，不是自然定律。严肃报告应说明为什么选择这个阈值，尤其在医疗、安全、政策决策中。

7.5.5 多次检验会放大误报¶

如果一次检验的误报率是 0.05，同时做很多次检验，至少撞上一次误报的概率会变大。

若做 \(m\) 个独立检验，每个检验 \(\alpha=0.05\)：

\[ P(\text{至少一次误报})=1-(1-0.05)^m \]

检验次数 \(m\)	至少一次误报概率
1	0.05
5	0.23
20	0.64
100	0.99

这就是多重检验校正的动机，后面 §7.10 会专门讲。

7.5.6 Python 计算临界值和误报累积¶

from scipy import stats

for alpha in [0.10, 0.05, 0.01, 0.001]:
    z_star = stats.norm.ppf(1 - alpha / 2)
    print(f"alpha={alpha:.3f}, 双侧 z 临界值 = ±{z_star:.3f}")

for m in [1, 5, 20, 100]:
    fwer = 1 - (1 - 0.05) ** m
    print(f"m={m:3d}, 至少一次误报概率 = {fwer:.3f}")

完整脚本见：

# docs/assets/scripts/ch07_hypothesis_testing/05_significance_level/main.py

alpha 原来不是“统计学默认按钮”，而是实验前的风险选择。

对。下一节我们把另一种错误 beta 和检验功效一起放进图里。

小率的笔记本

\(\alpha\) 是在看数据前设定的误报容忍度，也就是 \(P(\text{拒绝 }H_0\mid H_0\text{ 真})\)。\(\alpha\) 越小越难拒绝 \(H_0\)，但可能增加漏报。0.05 只是惯例，不是科学定律；多次检验会放大整体误报风险。