5.4 中心极限定理¶
快递站里,包裹重量很不均匀:小件很多,偶尔有特别重的大箱子。小率担心这种右偏数据没法用正态分布。均哥说:单个包裹的重量确实不正态,但如果每次抽一批包裹算平均重量,平均值会慢慢长成钟形。
总体不正态,还能用正态近似吗
中心极限定理回答的是:在一定条件下,样本均值的分布会近似正态,而不是说原始数据本身会变正态。
5.4.1 先看形状:均值会变钟形¶
包裹重量这么偏,为什么平均值反而像钟形?
因为每个样本均值都是很多个独立波动的平均。高的和低的互相抵消,极端结果越来越少。
5.4.2 再看宽度:样本量越大,均值越稳¶
样本均值的标准误差是:
\[
\mathrm{SE}(\bar{X})=\frac{\sigma}{\sqrt{n}}
\]
这说明 \(n\) 变大时,抽样分布会变窄。直觉上,每次多看一些包裹,平均重量就不容易被一两个极端包裹带跑。
5.4.3 正式说法¶
如果 \(X_1,\ldots,X_n\) 是独立同分布样本,且总体均值为 \(\mu\)、方差为 \(\sigma^2<\infty\),那么当 \(n\) 足够大时:
\[
\bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right)
\]
等价地,标准化后:
\[
Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \approx N(0,1)
\]
所以 CLT 给了我一把尺子:样本均值离总体均值几个 SE?
对。第 6 章置信区间、第 7 章假设检验都要用这把尺子。
5.4.4 n 多大才够¶
没有万能数字,但有经验:
| 总体形状 | 常见经验 |
|---|---|
| 接近对称、尾部不重 | \(n\ge 15\) 往往够用 |
| 中等偏态 | \(n\ge 30\) 常作为起点 |
| 极偏或重尾 | 可能需要 \(n\ge 100\) 或更多 |
| 方差不存在 | CLT 不适用 |
不是所有分布都能被 CLT 拯救
中心极限定理需要有限方差。像 Cauchy 分布这类没有均值和方差的重尾分布,样本均值不会按普通 CLT 变稳。
5.4.5 用 CLT 算一个概率¶
某快递站包裹重量的总体均值 \(\mu=3.0\) kg,标准差 \(\sigma=1.2\) kg。随机抽 64 个包裹,样本均值超过 3.3 kg 的概率大约是多少?
先算标准误差:
\[
\mathrm{SE}=\frac{1.2}{\sqrt{64}}=0.15
\]
再标准化:
\[
Z=\frac{3.3-3.0}{0.15}=2
\]
所以:
\[
P(\bar{X}>3.3)\approx P(Z>2)\approx 0.0228
\]
from math import sqrt
from scipy.stats import norm
mu = 3.0
sigma = 1.2
n = 64
threshold = 3.3
se = sigma / sqrt(n)
z = (threshold - mu) / se
prob = 1 - norm.cdf(z)
print(f"SE = {se:.2f}")
print(f"z = {z:.2f}")
print(f"P(样本均值 > {threshold}) ≈ {prob:.4f}")
小率的笔记本
- CLT 说的是样本均值的分布近似正态,不是原始数据变正态。
- 样本量越大,抽样分布越窄,SE = \(\sigma/\sqrt{n}\)。
- 使用 CLT 时先检查独立性、样本量和方差是否有限。
- 标准化公式 \(Z=(\bar{X}-\mu)/(\sigma/\sqrt{n})\) 是后续推断的入口。


