16.6 小结¶
第 16 章像一次统计学的实地旅行。小率发现,医学、推荐、文本、留存、因果看起来很不一样,但真正落地时,都绕不开同一个问题:我们能不能用数据做出更可靠的判断?
16.6.1 从真实问题到决策应用¶
一个应用统计项目通常按这条路走:
- 明确真实问题:要解释、预测,还是评估因果效果。
- 收集和理解数据:定义样本、变量、结局和偏差来源。
- 选择统计方法:方法要服务问题,而不是反过来。
- 验证和评估:看不确定性、泛化、稳健性和边界条件。
- 决策应用:把结论转成行动,同时持续监控。
16.6.2 五类场景的方法地图¶
| 场景 | 核心问题 | 常用方法 | 主要风险 |
|---|---|---|---|
| 临床试验 | 新方案是否更好 | RCT、均值差、风险比、生存分析 | 样本量、伦理、脱落 |
| 推荐系统 | 用户可能喜欢什么 | 协同过滤、排序模型、A/B 测试 | 曝光偏差、指标错配 |
| 文本 NLP | 文字表达了什么 | TF-IDF、分类、主题模型、Transformer | 语料偏差、语义漂移 |
| 生存分析 | 事件何时发生 | Kaplan-Meier、Cox、AFT | 删失处理、比例风险假设 |
| 因果推断 | 改变策略会怎样 | 随机实验、匹配、DiD、IV、RDD | 混杂、识别假设 |
16.6.3 应用时最常见的三种翻车¶
把业务问题说得太晚
如果一开始没有定义结局、目标人群和可行动决策,后面模型再复杂,也可能回答错问题。
把相关当因果
推荐点击、用户留存、医学疗效都可能被混杂影响。只有合适的实验或识别策略,才能支持因果结论。
只报告一个漂亮指标
AUC、p 值、平均提升都只是证据的一部分。应用场景还要看不确定性、成本、安全性、公平性、隐私和长期影响。
16.6.4 带走的工作清单¶
- 先写一句清楚的问题定义。
- 列出样本、变量、结局和时间窗口。
- 画出可能的偏差来源。
- 做一个简单基线。
- 报告效应大小和不确定性。
- 用验证集、测试集或 A/B 测试检查结论。
- 说明结论适用的边界。
16.6.5 练一练¶
练习 16.1
一个 RCT 得到均值差为 2.1,95% 置信区间为 [-0.2, 4.4]。应该怎样解释?
参考答案
点估计显示新方案平均高 2.1,但区间跨过 0,说明在常用显著性水平下证据不足。还要结合临床或业务意义、样本量和安全性判断。
练习 16.2
推荐系统离线 AUC 变高,但线上点击率下降,可能是什么原因?
参考答案
可能有曝光偏差、训练和服务特征不一致、排序目标与业务目标不一致、多样性下降、用户疲劳,或 A/B 分流本身有问题。
练习 16.3
做评论情感分类时,为什么要先跑 TF-IDF + 逻辑回归基线?
参考答案
它快、便宜、可解释,能判断任务难度。若简单基线已足够,就不一定需要昂贵的大模型;若差距很大,再升级模型更有依据。
练习 16.4
用户到研究结束仍未流失,为什么不能直接删除?
参考答案
这些用户提供了“至少活到研究结束”的信息,是删失观察。删除会浪费信息并可能造成偏差。
练习 16.5
“喝咖啡的人寿命更短”能直接说明咖啡有害吗?
参考答案
不能。可能有抽烟、工作压力、睡眠不足等混杂因素。要做因果判断,需要随机实验、自然实验或明确的混杂控制策略。
小率的笔记本
应用统计不是把公式贴到现实上,而是把现实问题翻译成可检验、可解释、可行动的数据问题。好分析从设计开始,也在责任边界处结束。


