16.6 小结¶

第 16 章像一次统计学的实地旅行。小率发现，医学、推荐、文本、留存、因果看起来很不一样，但真正落地时，都绕不开同一个问题：我们能不能用数据做出更可靠的判断？

16.6.1 从真实问题到决策应用¶

一个应用统计项目通常按这条路走：

把业务问题说得太晚

如果一开始没有定义结局、目标人群和可行动决策，后面模型再复杂，也可能回答错问题。

把相关当因果

推荐点击、用户留存、医学疗效都可能被混杂影响。只有合适的实验或识别策略，才能支持因果结论。

只报告一个漂亮指标

AUC、p 值、平均提升都只是证据的一部分。应用场景还要看不确定性、成本、安全性、公平性、隐私和长期影响。

练习 16.1

一个 RCT 得到均值差为 2.1，95% 置信区间为 [-0.2, 4.4]。应该怎样解释？

参考答案

点估计显示新方案平均高 2.1，但区间跨过 0，说明在常用显著性水平下证据不足。还要结合临床或业务意义、样本量和安全性判断。

练习 16.2

推荐系统离线 AUC 变高，但线上点击率下降，可能是什么原因？

参考答案

可能有曝光偏差、训练和服务特征不一致、排序目标与业务目标不一致、多样性下降、用户疲劳，或 A/B 分流本身有问题。

练习 16.3

做评论情感分类时，为什么要先跑 TF-IDF + 逻辑回归基线？

参考答案

它快、便宜、可解释，能判断任务难度。若简单基线已足够，就不一定需要昂贵的大模型；若差距很大，再升级模型更有依据。

练习 16.4

用户到研究结束仍未流失，为什么不能直接删除？

参考答案

这些用户提供了“至少活到研究结束”的信息，是删失观察。删除会浪费信息并可能造成偏差。

练习 16.5

“喝咖啡的人寿命更短”能直接说明咖啡有害吗？

参考答案

不能。可能有抽烟、工作压力、睡眠不足等混杂因素。要做因果判断，需要随机实验、自然实验或明确的混杂控制策略。

小率的笔记本

应用统计不是把公式贴到现实上，而是把现实问题翻译成可检验、可解释、可行动的数据问题。好分析从设计开始，也在责任边界处结束。