跳转至

5.1   为什么要抽样

暑假下午,奶茶店门口排了长队。小率想知道「平均等待时间」到底有多长,可店员不可能停下工作给每位顾客做访谈。均哥拿起几张排队小票,说:先别急着问所有人,统计学真正关心的是:怎样用一小部分人,尽量不偏地代表所有人。

图 5.1.0 奶茶店排队小票

排队小票能代表所有顾客吗

如果只拿最近 10 张小票,可能刚好碰上午后高峰;如果只问愿意回答的人,可能只听到特别满意或特别不满意的声音。抽样的第一步不是算平均,而是先问:样本从哪里来。

5.1.1   总体太大时,抽样是唯一入口

为什么不直接把今天所有顾客都问一遍?这样不是最准吗?
有些总体太大、太贵,甚至测量会破坏对象。抽样不是偷懒,是现实条件下的严谨方案。

总体(Population) 是我们真正关心的全部对象。样本(Sample) 是从总体里抽出来的一部分对象。

场景 总体 为什么不普查
奶茶等待时间 当天所有顾客 人流不断变化
盒装牛奶质量 同批全部牛奶 拆开就不能卖
城市月薪 城市所有劳动者 人数巨大且收入隐私
在线课程满意度 所有学习者 许多人不会回应

图 5.1.1 抽样用少量代表整体

图 5.1.1   抽样的目标不是“随便少问几个人”,而是让样本尽量像总体的缩影。

5.1.2   抽得像,比抽得多更重要

那是不是样本越大越好?抽 10 万人总比抽 1000 人可靠吧?
如果 10 万人都来自同一个圈子,它们只是很稳定地偏。抽样方法决定偏差,样本量主要决定波动。

记总体平均等待时间为 \(\mu\),样本平均等待时间为 \(\bar{x}\)。一次好的抽样希望满足两件事:

\[ \text{偏差小:}\quad E[\bar{X}] \approx \mu \]
\[ \text{波动小:}\quad \bar{X}\text{ 在不同抽样中不要晃得太厉害} \]

前者靠抽样设计,后者靠样本量和总体波动程度。

5.1.3   偏差不会被大样本自动治好

图 5.1.2 三类常见抽样偏差

图 5.1.2   选择偏差、无回应偏差和幸存者偏差都会让样本系统性偏离总体。

需要注意

样本量只能降低随机波动,不能修复系统偏差。比如只在高档商场调查月薪,即使问 10 万人,也不代表全城市劳动者。

原来“大数据”也可能很偏?
对。统计学先问“数据怎么来的”,再问“数据有多少”。

5.1.4   用模拟看一次偏差

下面用一个拟真城市月薪总体做演示:大多数人月薪集中在 5000-12000 元,但少量高收入者会拉高均值。如果调查渠道漏掉高收入者,样本会稳定偏低。

import numpy as np

rng = np.random.default_rng(2026)

# 拟真总体:绝大多数普通收入,少数高收入
ordinary = rng.normal(8200, 1800, 9800)
high_income = rng.normal(42000, 7000, 200)
population = np.concatenate([ordinary, high_income])
population = np.clip(population, 2500, None)

true_mean = population.mean()

# 随机抽样
random_sample = rng.choice(population, size=500, replace=False)

# 带偏抽样:只从低于 20000 的人中抽
biased_frame = population[population < 20000]
biased_sample = rng.choice(biased_frame, size=500, replace=False)

print(f"总体均值:{true_mean:.0f} 元")
print(f"随机样本均值:{random_sample.mean():.0f} 元")
print(f"带偏样本均值:{biased_sample.mean():.0f} 元")

三秒判断法

看到任何调查结论,先问三件事:总体是谁?抽样框覆盖了谁?没回应的人可能和回应者不同吗?

5.1.5   普查什么时候仍然必要

你知道吗

全国人口普查就是少数必须尽量接近总体调查的例子。它成本极高,但会影响公共服务、行政规划、教育医疗资源配置和人口政策。大多数日常研究不用普查,是因为目标通常是估计、比较或预测;但当政策必须依赖完整底账时,普查仍不可替代。

所以抽样不是普查的低配版,而是另一种工具?
正是。总体小、每个个体都极重要时,用普查;总体大、只需估计规律时,用抽样。

小率的笔记本

  • 总体是我真正想了解的全部对象,样本是我实际看到的一部分。
  • 抽样先解决“代表性”,再谈“样本量”。
  • 偏差靠设计修,波动靠样本量降。
  • 大样本不自动等于好样本。