跳转至

5.4   中心极限定理

快递站里,包裹重量很不均匀:小件很多,偶尔有特别重的大箱子。小率担心这种右偏数据没法用正态分布。均哥说:单个包裹的重量确实不正态,但如果每次抽一批包裹算平均重量,平均值会慢慢长成钟形。

图 5.4.0 快递包裹重量

总体不正态,还能用正态近似吗

中心极限定理回答的是:在一定条件下,样本均值的分布会近似正态,而不是说原始数据本身会变正态。

5.4.1   先看形状:均值会变钟形

包裹重量这么偏,为什么平均值反而像钟形?
因为每个样本均值都是很多个独立波动的平均。高的和低的互相抵消,极端结果越来越少。

图 5.4.1 中心极限定理的形状变化

图 5.4.1   即使总体明显右偏,样本均值的抽样分布也会随着 n 增大而接近钟形。

5.4.2   再看宽度:样本量越大,均值越稳

样本均值的标准误差是:

\[ \mathrm{SE}(\bar{X})=\frac{\sigma}{\sqrt{n}} \]

这说明 \(n\) 变大时,抽样分布会变窄。直觉上,每次多看一些包裹,平均重量就不容易被一两个极端包裹带跑。

图 5.4.2 标准误差随样本量缩小

图 5.4.2   SE 按 $1/\sqrt{n}$ 缩小,误差减半通常需要样本量变成 4 倍。

5.4.3   正式说法

如果 \(X_1,\ldots,X_n\) 是独立同分布样本,且总体均值为 \(\mu\)、方差为 \(\sigma^2<\infty\),那么当 \(n\) 足够大时:

\[ \bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right) \]

等价地,标准化后:

\[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \approx N(0,1) \]
所以 CLT 给了我一把尺子:样本均值离总体均值几个 SE?
对。第 6 章置信区间、第 7 章假设检验都要用这把尺子。

5.4.4   n 多大才够

没有万能数字,但有经验:

总体形状 常见经验
接近对称、尾部不重 \(n\ge 15\) 往往够用
中等偏态 \(n\ge 30\) 常作为起点
极偏或重尾 可能需要 \(n\ge 100\) 或更多
方差不存在 CLT 不适用

不是所有分布都能被 CLT 拯救

中心极限定理需要有限方差。像 Cauchy 分布这类没有均值和方差的重尾分布,样本均值不会按普通 CLT 变稳。

5.4.5   用 CLT 算一个概率

某快递站包裹重量的总体均值 \(\mu=3.0\) kg,标准差 \(\sigma=1.2\) kg。随机抽 64 个包裹,样本均值超过 3.3 kg 的概率大约是多少?

先算标准误差:

\[ \mathrm{SE}=\frac{1.2}{\sqrt{64}}=0.15 \]

再标准化:

\[ Z=\frac{3.3-3.0}{0.15}=2 \]

所以:

\[ P(\bar{X}>3.3)\approx P(Z>2)\approx 0.0228 \]
from math import sqrt
from scipy.stats import norm

mu = 3.0
sigma = 1.2
n = 64
threshold = 3.3

se = sigma / sqrt(n)
z = (threshold - mu) / se
prob = 1 - norm.cdf(z)

print(f"SE = {se:.2f}")
print(f"z = {z:.2f}")
print(f"P(样本均值 > {threshold}) ≈ {prob:.4f}")

小率的笔记本

  • CLT 说的是样本均值的分布近似正态,不是原始数据变正态。
  • 样本量越大,抽样分布越窄,SE = \(\sigma/\sqrt{n}\)
  • 使用 CLT 时先检查独立性、样本量和方差是否有限。
  • 标准化公式 \(Z=(\bar{X}-\mu)/(\sigma/\sqrt{n})\) 是后续推断的入口。