10.7 小结¶
这一章从一枚硬币开始,逐步走到后验推断、共轭先验、MCMC 和两大学派比较。贝叶斯统计最重要的不是某个神秘公式,而是一种顺序清楚的思维:先表达已有看法,再让数据更新它,最后带着不确定性做判断。
10.7.1 全章主线¶
| 小节 | 你应该带走什么 |
|---|---|
| 10.1 贝叶斯思维 | 参数不是只用一个点表示,也可以用分布表示信念 |
| 10.2 先验、似然与后验 | 后验正比于似然乘以先验,后验还能接着当下一批先验 |
| 10.3 贝叶斯推断 | 后验分布可以给均值、信用区间、概率判断和后验预测 |
| 10.4 共轭先验 | 某些模型里,更新像给参数做加法 |
| 10.5 MCMC | 后验难算时,用大量样本描出后验形状 |
| 10.6 贝叶斯 vs 频率派 | 两派回答的问题不同,实战中按场景选工具 |
10.7.2 必须记住的公式¶
贝叶斯公式:
\[
P(\theta\mid D)=\frac{P(D\mid\theta)P(\theta)}{P(D)}
\]
最常用的口头版:
\[
\text{后验}\propto\text{似然}\times\text{先验}
\]
Beta-Binomial 更新:
\[
\text{Beta}(a,b)+k\text{ 次成功}+(n-k)\text{ 次失败}
=\text{Beta}(a+k,b+n-k)
\]
后验预测:
\[
P(\tilde{x}\mid D)=\int P(\tilde{x}\mid\theta)P(\theta\mid D)d\theta
\]
10.7.3 选择方法的路线¶
决策路线
能共轭就先用共轭闭式解;不能共轭但维度不高,可以考虑 MCMC;数据很大、模型很深时,可以考虑变分推断或近似方法。真正重要的是先把问题、先验和数据来源说清楚。
| 情况 | 优先考虑 |
|---|---|
| 硬币、转化率、合格率 | Beta-Binomial |
| 多类别计数 | Dirichlet-Multinomial |
| 小样本且有历史经验 | 贝叶斯先验 + 后验推断 |
| 复杂层次结构 | 贝叶斯层次模型 |
| 后验无闭式解 | MCMC / NUTS |
| 大规模实时近似 | 变分推断 |
10.7.4 常见误解¶
| 误解 | 更准确的说法 |
|---|---|
| 先验就是偏见 | 先验是数据前信息,关键是透明和敏感性分析 |
| 后验概率绝对客观 | 后验依赖先验、似然模型和数据质量 |
| MCMC 跑了就可信 | 还要看收敛、有效样本量和诊断 |
| 频率派和贝叶斯只能二选一 | 实战中常常混合使用 |
| 信用区间和置信区间一样 | 数值可能接近,解释完全不同 |
10.7.5 小率的贝叶斯清单¶
做一个贝叶斯分析时,小率会按这个顺序检查:
- 参数是什么,取值范围是什么?
- 先验从哪里来,强不强?
- 数据生成过程适合什么似然?
- 后验能否闭式计算?
- 需要回答的是估计、区间、概率判断,还是预测?
- 换一个合理先验,结论是否稳?
- 如果用 MCMC,诊断是否通过?
小率的笔记本
贝叶斯统计把旧信息、新数据和不确定性放在同一个框架里。它最实用的地方,是能直接回答“现在我有多相信”“这个方案更好概率多大”“下一批数据可能怎样”。但这种直观表达要付出代价:先验、模型和计算诊断都必须透明。
10.7.6 练一练¶
练习 10.1
医生知道某病发病率为 1%,检测灵敏度 99%,特异度 99%。一个人检测阳性后,患病概率是多少?
参考答案
分子是 0.99 * 0.01。分母是 0.99 * 0.01 + 0.01 * 0.99。结果为 0.5。低基线率下,假阳性会显著影响后验概率。
练习 10.2
Beta(2,2) 先验,观察到 30 次中 18 次成功,后验是什么?
参考答案
后验是 Beta(20,14),因为成功次数加到第一个参数,失败次数加到第二个参数。
练习 10.3
为什么不能把频率派 95% 置信区间解释成“参数有 95% 概率落在这里”?
参考答案
在频率派框架下,参数是固定常数,随机的是区间构造过程。贝叶斯信用区间才可以直接用后验概率解释。
练习 10.4
MCMC 中一条链看起来有样本,为什么还要做诊断?
参考答案
因为链可能尚未收敛、样本自相关很高,或卡在局部区域。需要检查轨迹图、有效样本量、多链一致性等。

