5.3 抽样分布¶

均哥让小率想象一个电池工厂：同一批电池有成千上万节，每节寿命不同。小率第一次抽 30 节，平均寿命是 998 小时；第二次再抽 30 节，平均可能变成 1006 小时。问题来了：这些「样本平均值」本身会形成怎样的分布？

为什么每次样本均值都不同

不是计算错了，而是样本本来就是随机的。抽样分布研究的不是某一次样本，而是“反复抽样时统计量怎样波动”。

5.3.1 一次样本不是抽样分布¶

我已经有 30 节电池的数据了，画它们的直方图不就是抽样分布吗？

不是。那叫样本数据分布。抽样分布要把“抽 30 节并算均值”这件事重复很多次。

三个分布要分清：

名称	里面放的是什么	是否真实看到
总体分布	所有电池寿命	通常看不到完整总体
样本数据分布	这一次抽到的 30 个寿命	看得到
抽样分布	很多次样本均值 $\bar{X}$	概念上重复，电脑可模拟

图 5.3.1 抽样分布把每次抽样得到的统计量收集起来，而不是把一次样本的个体值收集起来。

5.3.2 统计量也是随机变量¶

样本均值 $\bar{X}$ 是由随机样本算出来的，所以它本身也是随机变量。

\[ \bar{X}=\frac{X_1+X_2+\cdots+X_n}{n} \]

如果抽样无偏，样本均值的长期中心会落在总体均值上：

\[ E[\bar{X}] = \mu \]

如果个体标准差是 $\sigma$，样本均值的波动大小是：

\[ \mathrm{SE}(\bar{X})=\frac{\sigma}{\sqrt{n}} \]

所以 $\bar{X}$ 不是一个固定答案，而是一群可能答案？

对。抽样分布就是这些可能答案的地图。

5.3.3 电脑上重跑 5000 次抽样¶

import numpy as np

rng = np.random.default_rng(2026)

# 拟真总体：电池寿命，右偏但均值有限
population = rng.gamma(shape=8, scale=125, size=100_000)
true_mean = population.mean()

sample_means = []
for _ in range(5000):
    sample = rng.choice(population, size=30, replace=False)
    sample_means.append(sample.mean())

sample_means = np.array(sample_means)

print(f"总体均值 μ ≈ {true_mean:.1f}")
print(f"抽样分布中心 ≈ {sample_means.mean():.1f}")
print(f"抽样分布标准差 SE ≈ {sample_means.std(ddof=1):.1f}")

看见抽样分布的办法

真实世界不可能倒带 5000 次，但电脑模拟可以帮我们看见“如果反复抽样，会发生什么”。这就是后面理解标准误差和置信区间的入口。

5.3.4 不只均值有抽样分布¶

任何由样本算出的统计量都有抽样分布：中位数、样本比例、样本方差、回归系数、相关系数都一样。第 6 章和第 7 章的估计与检验，都是在问：这个统计量在重复抽样中会怎样波动。

常见误解

抽样分布不是“样本很大时才有”。只要统计量来自随机样本，它就有抽样分布；样本量越大，只是抽样分布通常越窄。

小率的笔记本

样本数据分布：一次抽样里的个体值。
抽样分布：反复抽样后统计量的分布。
$\bar{X}$ 是随机变量，中心是 $\mu$，波动是 $\sigma/\sqrt{n}$。
推断的本质，是用抽样分布描述估计的不确定性。