0.2 如何使用本书¶
小率住下来的第一晚,行李箱还没完全打开,就从书包里翻出一叠纸:一张数学作业、一张班级问卷草稿、一份体检报告截图,还有几条他收藏过但没看懂的数据新闻。
他把纸摊在桌上,越看越觉得乱。
均哥没有急着列书单。他拿出一张空白纸,在中间画了一条弯弯曲曲的路线:前面是“看见数字”,后面是“整理记录”,再往后才是“判断可信不可信”和“用模型做预测”。
这本书也建议按这样的节奏来读。你不需要在第一页就把后面所有内容想清楚;只要每次抓住当前这一节最想解决的问题,统计学就会从一团名词慢慢变成一条能走的路。
0.2.1 先顺着主线读,不急着一次吃完¶
如果把整本书看成一段学习旅程,它大致可以分成几段路:
| 阶段 | 对应章节 | 你会逐步学到什么 |
|---|---|---|
| 入门和描述 | 第 1-2 章 | 统计学在生活中解决什么问题,怎样整理一批数据 |
| 概率和随机性 | 第 3-4 章 | 怎样描述“可能发生”,怎样理解随机变量和分布 |
| 抽样与推断 | 第 5-7 章 | 怎样从样本推总体,怎样估计、检验和表达不确定性 |
| 建模与解释 | 第 8-12 章 | 回归、方差分析、贝叶斯、多元统计和时间序列 |
| 机器学习与应用 | 第 13-16 章 | 用统计思想理解模型、训练、评估和真实案例 |
| 附录工具箱 | 第 17 章 | Python 环境、数学速查、术语表和常用表格 |
如果你是零基础,建议从第 1 章开始顺读。前几章不会急着堆术语,而是反复建立几个核心习惯:先看数字从哪里来,再把记录整理清楚,再画图观察,最后才问结论靠不靠谱。
如果你已经有基础,可以直接跳到正在需要的章节。但遇到卡住的地方,不要硬撑。很多后面的概念都依赖前面的直觉,比如“置信区间”离不开抽样,“模型评估”离不开偏差、方差和概率。回到前面的生活例子再看一遍,常常比硬背定义更有效。
0.2.2 一节内容可以分三遍读¶
面对一节内容,不建议一上来就“从头到尾全部吃透”。更轻松也更稳的办法,是分三遍靠近它。
第一遍,读故事和对话。你只需要弄清楚:这一节到底想解决什么问题?这个问题为什么值得关心?如果你能用自己的话复述“这里为什么需要统计学”,第一遍就已经成功了。
第二遍,看图和小例子。把抽象概念放回具体画面里,例如用奶茶等待时间理解分布,用体检筛查理解贝叶斯,用公交等待理解方差。图不是装饰,它是在帮你把“看不见的关系”变成“能指给别人看的关系”。
第三遍,再看公式和代码。公式把想法压缩成精确语言,代码把重复计算交给机器,让你可以换数据、改参数、看结果如何变化。到这一遍时,你已经知道公式想表达什么,阅读压力会小很多。
| 阅读阶段 | 重点 | 可以先跳过什么 |
|---|---|---|
| 第一遍 | 故事、问题、直觉 | 复杂推导 |
| 第二遍 | 图解、表格、手算小例子 | 大段代码细节 |
| 第三遍 | 公式、Python、复现实验 | 已经熟悉的故事 |
一个小建议
如果一节读完只记住一句话,也没关系。比如“条件概率就是换分母”“贝叶斯别忘了基准率”“回归线不是因果线”。这些短句会先成为抓手,后面再慢慢长出细节。
0.2.3 代码最好边读边跑¶
本书的代码示例以 Python 为主。代码的作用不是把统计学变成编程课,而是让你能亲手验证一个想法:样本变多会怎样,异常值加入后会怎样,模型换一批数据还稳不稳。
你不需要一开始安装复杂环境,推荐从下面两个工具开始:
- Jupyter Notebook:适合在本地电脑上边写文字、边运行代码、边保存实验过程。
- Google Colab:适合直接在浏览器中运行 Notebook,不想配置环境时尤其方便。
如果你只是想快速试一段代码,可以优先用 Google Colab;如果你希望长期保存自己的学习笔记,可以安装 Jupyter Notebook 或 JupyterLab。无论选择哪一种,都建议把每次运行结果旁边写上一句自己的解释,而不是只留下代码和数字。
常用库包括:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
后面进入回归、机器学习和深度学习时,还会逐步用到 statsmodels、scikit-learn、torch 等工具。第一次遇到没装过的库,不必慌,它只是一个新工具,不是新的门槛。
0.2.4 不要只看结果,要动手改一改¶
跑代码时,最有价值的不是看到输出和书上一样,而是改动一个小地方:
- 把样本量从 30 改成 300,会发生什么?
- 把异常值加进去,均值和中位数谁变化更大?
- 把硬币正面概率从 0.5 改成 0.7,模拟曲线会怎么变?
- 把训练集变小,模型是不是更容易不稳定?
这些小改动会让概念变成经验。你会慢慢知道,公式不是纸上的装饰,它们会随着数据变化而变化。
0.2.5 遇到困难时,先回到问题本身¶
读统计学时,卡住很正常。卡住时不要立刻责怪自己,可以按这个顺序排查:
- 我现在想解决的问题是什么?
- 数据里每一行、每一列分别代表什么?
- 这张图想让我看见什么?
- 公式里的分母、分子、求和范围分别对应故事里的什么?
- 代码输出的数字,能不能用一句普通话解释?
如果这五个问题能回答,哪怕公式还不熟,你也已经走在正确路上。
小率的笔记本
- 零基础读者建议从第 1 章顺读,有基础的读者可以按需跳读。
- 一节内容可以分三遍:先故事,再图解,最后公式和代码。
- 推荐用 Jupyter Notebook 或 Google Colab 运行代码。
- 跑代码时要试着改参数,观察结果怎样变化。
- 卡住时先回到问题、数据、图和公式里的含义。
