跳转至

2.10   小结

小率把第 2 章的笔记摊开,发现自己已经学会了很多“看清数据”的工具:有的看中心,有的看离散,有的看形状,有的直接画图。

均哥没有让他背公式,而是递来一张检查清单:拿到一份数据时,先判断它是什么,再决定该画什么、算什么、报告什么。

描述统计最怕变成“指标大杂烩”。如果一份报告从头到尾只是均值、标准差、中位数、偏度、峰度排成一张表,读者可能还是不知道数据在讲什么。真正好的描述统计,应该像带读者看一张地图:先指出地图范围,再标出主要城市、道路、山谷和危险地带。


2.10.1   一页看懂本章工具箱

图 2.10.1 第 2 章一页速查

图 2.10.1   描述统计不是一堆零散公式,而是一套从数据类型、分布形状到报告指标的决策流程。

2.10.2   拿到数据先问四个问题

小率的复盘题

给你一份新数据,先不要打开计算器。你能先回答下面四个问题吗?

  1. 观察对象是谁?变量是什么?
  2. 变量是分类、有序、离散数值,还是连续数值?
  3. 分布是对称、偏态、双峰,还是有明显异常值?
  4. 这份数据适合报告均值和标准差,还是中位数和 IQR?
原来描述统计不是“每个指标都算一遍”,而是先判断该算什么。
对。会选择,比会背公式更重要。

这四个问题其实对应本章的四个层次:

层次 要问什么 对应工具
来源 数据来自谁,能代表谁 总体、样本、抽样偏差
类型 每一列是什么变量 分类、数值、有序、连续
分布 数据怎样铺开 频数表、直方图、箱线图
摘要 应该报告哪些数字 均值、中位数、标准差、IQR、偏度

只要这四层说清楚,一份描述统计报告就有了骨架。


2.10.3   核心概念地图

关键词 一句话记忆
2.1 总体与样本 \(N\) vs \(n\) 用样本统计量估计总体参数,是统计推断的起点。
2.2 变量与数据类型 分类 / 数值 数据类型决定图形、描述量和模型选择。
2.3 频数与频率分布 频数、直方图 把散乱数字分组,先看分布形状。
2.4 均值 \(\bar{x}\) 均值像重心,利用全部数据,但怕极端值。
2.5 中位数与众数 Median / Mode 中位数稳健,众数适合分类变量。
2.6 方差与标准差 \(s^2, s\) 描述数据围绕中心散开多远。
2.7 极差与 IQR Range / IQR IQR 看中间 50%,比极差更稳健。
2.8 偏度与峰度 Skewness / Kurtosis 偏度看歪不歪,峰度看尾巴重不重。
2.9 数据可视化 先画图 图形能暴露数字隐藏的结构。

2.10.4   描述量怎么搭配报告

数据形态 推荐图形 推荐描述量 备注
对称、无明显异常值 直方图 + 箱线图 均值 ± 标准差 同时报告样本量 \(n\)
右偏长尾或有异常值 直方图 + 箱线图 中位数 + IQR 不要只报均值
分类变量 条形图 频数 + 比例 + 众数 不要计算类别均值
双峰或多峰 分组图 分组描述 先查是否混合了不同群体
两个数值变量 散点图 相关或趋势描述 注意离群点和非线性

需要注意

“均值 ± 标准差”不是万能模板。偏态、长尾、有异常值或多峰数据,都可能需要更稳健的描述方式。

一个更像人话的报告模板可以这样写:

本次调查共收集 60 位同学的奶茶等待时间。等待时间呈轻微右偏,大多数集中在 10 到 30 分钟之间,少数超过 40 分钟。中位等待时间为 22 分钟,IQR 为 14 到 29 分钟。由于存在长尾,本文主要使用中位数和 IQR 描述典型体验。

这段话没有堆很多指标,却交代了样本量、变量、形状、中心、离散和选择理由。描述统计的目标就是这种清楚表达。

原来报告不是把所有数都端上来,而是把该说的数说清楚。
对。少而准,比多而乱更有用。

2.10.5   Python 复盘:一口气算常用描述量

import numpy as np
import pandas as pd
from scipy.stats import skew, kurtosis

rng = np.random.default_rng(210)
data = rng.lognormal(mean=2.2, sigma=0.5, size=100)

summary = {
    "样本量": len(data),
    "均值": np.mean(data),
    "中位数": np.median(data),
    "标准差": np.std(data, ddof=1),
    "IQR": np.percentile(data, 75) - np.percentile(data, 25),
    "偏度": skew(data),
    "超额峰度": kurtosis(data),
}

print(pd.Series(summary).round(2))

代码能很快算出一堆数字,但不要让代码替你决定结论。运行完后,至少补三句解释:

  1. 这组数据是否偏态,是否有长尾或异常值?
  2. 哪个中心指标更适合报告,为什么?
  3. 这份数据能代表的范围是什么,不能代表什么?

完整配套脚本

本节配套脚本在 docs/assets/scripts/ch02_descriptive/10_summary.py,可以复现本章速查表和复盘示例。

小率的笔记本

  • 描述统计的顺序是:先认变量,再画图,再选择合适的描述量。
  • 中心、离散和形状要一起看;只报一个平均值通常不够。
  • 对称无异常时可以用均值和标准差;偏态长尾时优先用中位数和 IQR。
  • 图形不是装饰,而是发现异常值、分组结构和非线性关系的工具。
  • 下一章进入概率基础:从“这批数据长什么样”走向“随机现象背后的规律是什么”。
  • 一份好的描述统计报告,要说明数据来源、变量含义、分布形状、指标选择和限制。