跳转至

0.2   如何使用本书

小率住下来的第一晚,行李箱还没完全打开,就从书包里翻出一叠纸:一张数学作业、一张班级问卷草稿、一份体检报告截图,还有几条他收藏过但没看懂的数据新闻。

他把纸摊在桌上,越看越觉得乱。

如果统计学要管这么多东西,我是不是应该先把所有数学都补完?

均哥没有急着列书单。他拿出一张空白纸,在中间画了一条弯弯曲曲的路线:前面是“看见数字”,后面是“整理记录”,再往后才是“判断可信不可信”和“用模型做预测”。

不用从最高的山开始爬。先学会看见问题,再学会整理数据,最后再学公式和代码。

这本书也建议按这样的节奏来读。你不需要在第一页就把后面所有内容想清楚;只要每次抓住当前这一节最想解决的问题,统计学就会从一团名词慢慢变成一条能走的路。

如何使用本书的学习流程图

0.2.1   先顺着主线读,不急着一次吃完

如果把整本书看成一段学习旅程,它大致可以分成几段路:

阶段 对应章节 你会逐步学到什么
入门和描述 第 1-2 章 统计学在生活中解决什么问题,怎样整理一批数据
概率和随机性 第 3-4 章 怎样描述“可能发生”,怎样理解随机变量和分布
抽样与推断 第 5-7 章 怎样从样本推总体,怎样估计、检验和表达不确定性
建模与解释 第 8-12 章 回归、方差分析、贝叶斯、多元统计和时间序列
机器学习与应用 第 13-16 章 用统计思想理解模型、训练、评估和真实案例
附录工具箱 第 17 章 Python 环境、数学速查、术语表和常用表格

如果你是零基础,建议从第 1 章开始顺读。前几章不会急着堆术语,而是反复建立几个核心习惯:先看数字从哪里来,再把记录整理清楚,再画图观察,最后才问结论靠不靠谱。

如果你已经有基础,可以直接跳到正在需要的章节。但遇到卡住的地方,不要硬撑。很多后面的概念都依赖前面的直觉,比如“置信区间”离不开抽样,“模型评估”离不开偏差、方差和概率。回到前面的生活例子再看一遍,常常比硬背定义更有效。

那我读一节的时候,是不是必须每个公式都立刻看懂?
不用。第一次读先抓故事和图,第二次读再补公式,第三次读再跑代码。统计学很适合反复回来。

0.2.2   一节内容可以分三遍读

面对一节内容,不建议一上来就“从头到尾全部吃透”。更轻松也更稳的办法,是分三遍靠近它。

第一遍,读故事和对话。你只需要弄清楚:这一节到底想解决什么问题?这个问题为什么值得关心?如果你能用自己的话复述“这里为什么需要统计学”,第一遍就已经成功了。

第二遍,看图和小例子。把抽象概念放回具体画面里,例如用奶茶等待时间理解分布,用体检筛查理解贝叶斯,用公交等待理解方差。图不是装饰,它是在帮你把“看不见的关系”变成“能指给别人看的关系”。

第三遍,再看公式和代码。公式把想法压缩成精确语言,代码把重复计算交给机器,让你可以换数据、改参数、看结果如何变化。到这一遍时,你已经知道公式想表达什么,阅读压力会小很多。

阅读阶段 重点 可以先跳过什么
第一遍 故事、问题、直觉 复杂推导
第二遍 图解、表格、手算小例子 大段代码细节
第三遍 公式、Python、复现实验 已经熟悉的故事

一个小建议

如果一节读完只记住一句话,也没关系。比如“条件概率就是换分母”“贝叶斯别忘了基准率”“回归线不是因果线”。这些短句会先成为抓手,后面再慢慢长出细节。

0.2.3   代码最好边读边跑

本书的代码示例以 Python 为主。代码的作用不是把统计学变成编程课,而是让你能亲手验证一个想法:样本变多会怎样,异常值加入后会怎样,模型换一批数据还稳不稳。

你不需要一开始安装复杂环境,推荐从下面两个工具开始:

  • Jupyter Notebook:适合在本地电脑上边写文字、边运行代码、边保存实验过程。
  • Google Colab:适合直接在浏览器中运行 Notebook,不想配置环境时尤其方便。

如果你只是想快速试一段代码,可以优先用 Google Colab;如果你希望长期保存自己的学习笔记,可以安装 Jupyter Notebook 或 JupyterLab。无论选择哪一种,都建议把每次运行结果旁边写上一句自己的解释,而不是只留下代码和数字。

常用库包括:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

后面进入回归、机器学习和深度学习时,还会逐步用到 statsmodelsscikit-learntorch 等工具。第一次遇到没装过的库,不必慌,它只是一个新工具,不是新的门槛。

0.2.4   不要只看结果,要动手改一改

跑代码时,最有价值的不是看到输出和书上一样,而是改动一个小地方:

  • 把样本量从 30 改成 300,会发生什么?
  • 把异常值加进去,均值和中位数谁变化更大?
  • 把硬币正面概率从 0.5 改成 0.7,模拟曲线会怎么变?
  • 把训练集变小,模型是不是更容易不稳定?

这些小改动会让概念变成经验。你会慢慢知道,公式不是纸上的装饰,它们会随着数据变化而变化。

所以我可以把书里的代码当成实验台?
对。统计学最怕只看答案,最适合边改边观察。

0.2.5   遇到困难时,先回到问题本身

读统计学时,卡住很正常。卡住时不要立刻责怪自己,可以按这个顺序排查:

  1. 我现在想解决的问题是什么?
  2. 数据里每一行、每一列分别代表什么?
  3. 这张图想让我看见什么?
  4. 公式里的分母、分子、求和范围分别对应故事里的什么?
  5. 代码输出的数字,能不能用一句普通话解释?

如果这五个问题能回答,哪怕公式还不熟,你也已经走在正确路上。

小率的笔记本

  • 零基础读者建议从第 1 章顺读,有基础的读者可以按需跳读。
  • 一节内容可以分三遍:先故事,再图解,最后公式和代码。
  • 推荐用 Jupyter NotebookGoogle Colab 运行代码。
  • 跑代码时要试着改参数,观察结果怎样变化。
  • 卡住时先回到问题、数据、图和公式里的含义。