跳转至

16.6   小结

第 16 章像一次统计学的实地旅行。小率发现,医学、推荐、文本、留存、因果看起来很不一样,但真正落地时,都绕不开同一个问题:我们能不能用数据做出更可靠的判断?

均哥和小率整理应用统计工具箱

16.6.1   从真实问题到决策应用

应用统计项目流程图

一个应用统计项目通常按这条路走:

  1. 明确真实问题:要解释、预测,还是评估因果效果。
  2. 收集和理解数据:定义样本、变量、结局和偏差来源。
  3. 选择统计方法:方法要服务问题,而不是反过来。
  4. 验证和评估:看不确定性、泛化、稳健性和边界条件。
  5. 决策应用:把结论转成行动,同时持续监控。

16.6.2   五类场景的方法地图

第 16 章应用统计方法地图

场景 核心问题 常用方法 主要风险
临床试验 新方案是否更好 RCT、均值差、风险比、生存分析 样本量、伦理、脱落
推荐系统 用户可能喜欢什么 协同过滤、排序模型、A/B 测试 曝光偏差、指标错配
文本 NLP 文字表达了什么 TF-IDF、分类、主题模型、Transformer 语料偏差、语义漂移
生存分析 事件何时发生 Kaplan-Meier、Cox、AFT 删失处理、比例风险假设
因果推断 改变策略会怎样 随机实验、匹配、DiD、IV、RDD 混杂、识别假设

16.6.3   应用时最常见的三种翻车

把业务问题说得太晚

如果一开始没有定义结局、目标人群和可行动决策,后面模型再复杂,也可能回答错问题。

把相关当因果

推荐点击、用户留存、医学疗效都可能被混杂影响。只有合适的实验或识别策略,才能支持因果结论。

只报告一个漂亮指标

AUC、p 值、平均提升都只是证据的一部分。应用场景还要看不确定性、成本、安全性、公平性、隐私和长期影响。

16.6.4   带走的工作清单

  • 先写一句清楚的问题定义。
  • 列出样本、变量、结局和时间窗口。
  • 画出可能的偏差来源。
  • 做一个简单基线。
  • 报告效应大小和不确定性。
  • 用验证集、测试集或 A/B 测试检查结论。
  • 说明结论适用的边界。

16.6.5   练一练

练习 16.1

一个 RCT 得到均值差为 2.1,95% 置信区间为 [-0.2, 4.4]。应该怎样解释?

参考答案

点估计显示新方案平均高 2.1,但区间跨过 0,说明在常用显著性水平下证据不足。还要结合临床或业务意义、样本量和安全性判断。

练习 16.2

推荐系统离线 AUC 变高,但线上点击率下降,可能是什么原因?

参考答案

可能有曝光偏差、训练和服务特征不一致、排序目标与业务目标不一致、多样性下降、用户疲劳,或 A/B 分流本身有问题。

练习 16.3

做评论情感分类时,为什么要先跑 TF-IDF + 逻辑回归基线?

参考答案

它快、便宜、可解释,能判断任务难度。若简单基线已足够,就不一定需要昂贵的大模型;若差距很大,再升级模型更有依据。

练习 16.4

用户到研究结束仍未流失,为什么不能直接删除?

参考答案

这些用户提供了“至少活到研究结束”的信息,是删失观察。删除会浪费信息并可能造成偏差。

练习 16.5

“喝咖啡的人寿命更短”能直接说明咖啡有害吗?

参考答案

不能。可能有抽烟、工作压力、睡眠不足等混杂因素。要做因果判断,需要随机实验、自然实验或明确的混杂控制策略。

小率的笔记本

应用统计不是把公式贴到现实上,而是把现实问题翻译成可检验、可解释、可行动的数据问题。好分析从设计开始,也在责任边界处结束。