跳转至

4.9   小结

小率把第 4 章的草稿摊开,发现这一章其实只有一条主线:先把随机结果变成数字,再用分布描述它,用期望和方差总结它,用正态分布近似它,最后把两个变量放在一起看。

这一章概念好多,我怕它们散掉。
那就把它们串成一张地图。随机变量是入口,分布是语言,期望和方差是摘要。

4.9.1   一页速查图

图 4.9.1 第 4 章公式速查

图 4.9.1   第 4 章的主要对象包括 PMF、PDF、CDF、期望、方差、正态标准化和两变量关系。

4.9.2   核心知识地图

图 4.9.2 随机变量知识地图

图 4.9.2   从随机变量出发,沿分布、期望、方差、正态分布和两变量关系组织全章知识。

4.9.3   随机变量速查表

问题 关键词 常用对象
结果能否变成数字 “正面次数”“等待时间”“赔付金额” 随机变量 \(X\)
某个取值概率 数得清的点 PMF:\(P(X=x)\)
不超过某值概率 累积到这里 CDF:\(F(x)=P(X\le x)\)
区间概率 连续变量、面积 PDF 下方面积
长期平均 重复很多次后的平均 期望 \(E[X]\)
波动大小 离中心有多远 方差 \(Var(X)\)
标准化位置 高出平均几个标准差 \(Z=(X-\mu)/\sigma\)
两个变量一起看 成对数据、二维表 联合分布、协方差、相关系数

4.9.4   选哪个分布

问题是数得清还是连续?
├─ 数得清
│  ├─ 一次成败 → Bernoulli
│  ├─ 固定次数成功数 → Binomial
│  ├─ 等到第一次成功 → Geometric
│  └─ 单位时间或区域次数 → Poisson
└─ 连续
   ├─ 区间内同样可能 → Uniform
   ├─ 等下一次事件 → Exponential
   └─ 大量小因素叠加、钟形近似 → Normal

4.9.5   常见误区 Top 5

误区 1:PDF 高度当成概率

连续变量的概率来自面积,不来自单点高度。\(f(x)\) 可以大于 1,但区间面积必须合计为 1。

误区 2:期望就是最可能出现的值

期望是长期平均或重心,不一定是某个真实可能取值。抽奖的期望可以是 4.75 元,但单次不会抽到 4.75 元。

误区 3:方差相加总是成立

\(Var(X+Y)=Var(X)+Var(Y)\) 需要独立或协方差为 0;一般情况要加 \(2Cov(X,Y)\)

误区 4:相关系数为 0 就代表独立

\(r=0\) 只说明无线性相关,不代表没有非线性关系,也不必然代表独立。

误区 5:看到钟形就一定正态

正态分布是常用近似,不是自动成立。要结合变量背景、直方图和上下限判断。

4.9.6   复盘交互 · 从变量到关系

复盘路线

做题时先写清楚 \(X\) 是什么,再判断分布类型;能算期望和方差后,再考虑是否需要标准化;如果有两个变量,就先画散点图或联合表。

我现在知道怎么开头了:先定义随机变量。
对。统计题最怕一上来套公式,先把变量和问题问清楚。

4.9.7   术语对照表 (Glossary)

中文 English 一句话解释
随机变量 Random Variable 把随机结果映射成数字的函数
概率质量函数 PMF 离散变量每个取值的概率
概率密度函数 PDF 连续变量的概率密度,概率来自面积
累积分布函数 CDF \(P(X\le x)\) 的函数
期望 Expectation 长期平均或概率重心
方差 Variance 离中心平方距离的平均
标准差 Standard Deviation 方差开根号,和原变量同单位
标准化 Standardization 把原变量转成 z 值
联合分布 Joint Distribution 两个变量同时取值的概率结构
协方差 Covariance 两个变量是否同向偏离均值
相关系数 Correlation 标准化后的协方差,范围在 -1 到 1

4.9.8   下章预告

第 4 章把“一个随机变量长什么样”讲清楚了;第 5 章会继续问:现实里我们通常拿不到总体,只能抽样。样本均值、样本比例和样本方差本身也会随机波动,它们的分布就是抽样分布。

所以接下来不是研究一个人,而是研究一批样本会怎么变?
正是。抽样分布会把“样本为什么能推总体”这件事讲明白。

小率的笔记本

随机变量让随机结果进入数轴;分布告诉我每个位置有多可能;期望和方差把分布压缩成中心和波动;正态分布提供常用近似和标准化语言;联合分布、协方差与相关性则把视角从一个变量扩展到两个变量。


4.9.9   练一练

本章核心练习题汇总。建议先动笔再看参考答案。

练习 4.1.1 — 抛三枚硬币

设 X = 三枚硬币中正面数, 写出 PMF 和 CDF 表 (列出所有取值)。

参考答案

样本空间 |Ω| = 8。

x P(X=x) F(x)
0 ⅛ = 0.125 0.125
1 ⅜ = 0.375 0.500
2 ⅜ = 0.375 0.875
3 ⅛ = 0.125 1.000

练习 4.1.2 — CDF 反推 PMF

某离散 RV 的 CDF 表为 F(0)=0.2, F(1)=0.5, F(2)=0.8, F(3)=1.0。求 PMF。

参考答案

P(X=0) = 0.2, P(X=1) = 0.3, P(X=2) = 0.3, P(X=3) = 0.2。 校验和 = 1 ✓

练习 4.1.3 — 连续 RV 一句话

解释为什么对连续 RV, P(X = 5.0) = 0, 但 P(4.99 < X < 5.01) > 0?

参考答案

连续分布是『面积』; 单点 x=5 是宽度为 0 的线段, 面积 = 0。但任何宽度大于 0 的区间 [4.99, 5.01] 在 PDF 下方都有非零面积, 所以概率为正。这也是为什么连续 RV 的概率必须用区间或积分表达。

练习 4.2.1 — Binomial 心算

某药对患者有效率 80%, 给 5 个患者用药, 求至少 4 人有效的概率。

参考答案

\(X \sim \text{Binom}(5, 0.8)\)\(P(X = 4) = C_5^4 \cdot 0.8^4 \cdot 0.2 = 5 \cdot 0.4096 \cdot 0.2 = 0.4096\) \(P(X = 5) = 0.8^5 = 0.3277\) \(P(X \geq 4) = 0.7373\) ≈ 73.7%。

练习 4.2.2 — Geometric

扔一颗骰子直到出现 6 为止, 求期望扔几次? P(扔 ≤ 5 次内出现) ?

参考答案

\(X \sim \text{Geom}(1/6)\), \(E[X] = 6\)\(P(X \leq 5) = 1 - P(X > 5) = 1 - (5/6)^5 \approx 1 - 0.402 = 0.598\)

练习 4.2.3 — Poisson 应用

某网站平均每天宕机 0.5 次。求 (a) 某天不宕机的概率; (b) 一周 (7 天) 至少宕一次的概率。

参考答案

(a) \(P(X = 0) = e^{-0.5} \approx 0.607\)。 (b) 一周 \(Y \sim \text{Poisson}(3.5)\), \(P(Y \geq 1) = 1 - e^{-3.5} \approx 0.970\)。 日均看似稳定 (60% 不宕), 一周却 97% 至少宕一次——风险叠加是 Poisson 思维的常见反直觉。

练习 4.3.1 — Uniform 应用

某游戏奖励金额服从 Uniform(10, 50) 元。 (a) 平均奖金? (b) 奖金 ≥ 30 元的概率? © 方差?

参考答案

(a) \(E[X] = (10+50)/2 = 30\) 元 (b) \(P(X \geq 30) = (50-30)/(50-10) = 0.5\) © \(\mathrm{Var}[X] = (50-10)^2 / 12 = 1600/12 \approx 133.3\)

练习 4.3.2 — Exponential 灯泡

某品牌灯泡寿命服从 Exponential, 平均 1000 小时。 (a) λ = ? (b) 灯泡用满 800 小时不坏的概率? © 假定它已用了 500 小时, 再用 800 小时不坏的概率?

参考答案

(a) \(\lambda = 1/1000 = 0.001\)。 (b) \(P(X > 800) = e^{-0.8} \approx 0.449\)。 © 由无记忆性 = \(P(X > 800) \approx 0.449\)。已用 500 小时跟没用一样, 这正是无记忆性的本质 (现实中部件老化的灯泡当然不符合, 所以指数分布对老化电子元件不是最佳模型, 通常用 Weibull)。

练习 4.3.3 — PDF 与概率

某 RV 的 PDF 在 x=2 处 f(2) = 1.5。能否说 P(X = 2) = 1.5?

参考答案

不能。f(x) 是密度, 不是概率, 可以大于 1。P(X = 2) = 0 (单点)。 在区间 [2 - dx/2, 2 + dx/2] 内的概率约 ≈ f(2) · dx = 1.5 · dx, 当 dx → 0 时趋于 0。

练习 4.4.1 — 线性性应用

某餐厅一桌平均消费 \(E[X] = 200\) 元。一个月 \(N \sim\) Poisson(450) 桌, 每桌消费独立。求月营业额期望。

参考答案

营业额 \(S = X_1 + \dots + X_N\), 其中 \(N\) 也是随机的。 用全期望: \(E[S] = E[E[S|N]] = E[N \cdot E[X]] = 200 \cdot E[N] = 200 \cdot 450 = 90000\) 元。

练习 4.4.2 — 詹森

\(X\) 等概率取 2 或 8, 比较 \(E[X^2]\)\((E[X])^2\)

参考答案

\(E[X] = 5\), \((E[X])^2 = 25\)\(E[X^2] = 0.5 \cdot 4 + 0.5 \cdot 64 = 34 > 25\)。 因 \(g(x) = x^2\) 凸, Jensen: \(E[g(X)] \geq g(E[X])\)。差额 34-25 = 9 = \(\mathrm{Var}[X]\) — 这正是下一节的方差定义!

练习 4.4.3 — 不公平骰子

某六面骰子被改造, P(X=k) ∝ k (k=1..6)。求 E[X]。

参考答案

归一化常数 = 1+2+3+4+5+6 = 21, 所以 \(P(X=k) = k/21\)\(E[X] = \sum k \cdot k/21 = (1+4+9+16+25+36)/21 = 91/21 ≈ 4.33\)。 比公平骰 3.5 偏大, 因为高点权重更高。

练习 4.5.1 — 速算公式

某 RV 取 1, 2, 3, 4, 5, 概率分别是 0.1, 0.2, 0.4, 0.2, 0.1。求 E[X], Var[X]。

参考答案

\(E[X] = 1·0.1 + 2·0.2 + 3·0.4 + 4·0.2 + 5·0.1 = 3\) \(E[X^2] = 1·0.1 + 4·0.2 + 9·0.4 + 16·0.2 + 25·0.1 = 0.1 + 0.8 + 3.6 + 3.2 + 2.5 = 10.2\) \(\mathrm{Var}[X] = 10.2 - 9 = 1.2\), \(\sigma = \sqrt{1.2} \approx 1.095\)

练习 4.5.2 — 平移与缩放

\(\mathrm{Var}[X] = 4\), 求 \(\mathrm{Var}[3X - 5]\)

参考答案

\(\mathrm{Var}[3X - 5] = 3^2 \cdot 4 = 36\)。常数 -5 不影响方差; 系数 3 平方后乘进来。

练习 4.5.3 — Chebyshev 应用

某 RV 期望 100, 方差 16。求 P(70 ≤ X ≤ 130) 的下界。

参考答案

\(\sigma = 4\)。70 = μ - 7.5σ, 130 = μ + 7.5σ。 \(P(|X - 100| \geq 7.5\sigma) \leq 1/7.5^2 \approx 0.018\)。 所以 \(P(70 \leq X \leq 130) \geq 1 - 0.018 \approx 98.2\%\)。Chebyshev 的下界, 任何分布都成立。

练习 4.6.1 — 经验法则速答

某产品寿命 \(\sim N(1000, 100^2)\) 小时。粗略说: 中间 68% 的产品寿命落在哪个区间?

参考答案

\([1000 - 100, 1000 + 100] = [900, 1100]\) 小时。

练习 4.6.2 — 反向查表

某成绩 \(\sim N(75, 10^2)\)。教师想给前 5% 同学颁奖, 分数线应是?

参考答案

\(\Phi(z) = 0.95 \Rightarrow z = 1.645\)。 分数线 \(= 75 + 1.645 \cdot 10 = 91.45 \approx\) 92 分

练习 4.6.3 — 独立和

\(X_1 \sim N(0, 4)\), \(X_2 \sim N(0, 9)\) 独立。求 \(X_1 - X_2\) 的分布。

参考答案

\(X_1 - X_2 = X_1 + (-X_2)\), \(-X_2 \sim N(0, 9)\) (注意方差不变, \(a^2 = 1\))。 所以 \(X_1 - X_2 \sim N(0 + 0, 4 + 9) = N(0, 13)\), \(\sigma = \sqrt{13} \approx 3.61\)差也是正态, 方差仍然相加 (不是相减! 这是常见错误)。

练习 4.7.1 — 边缘分布

给定如下联合 PMF:

X\Y 0 1
0 0.2 0.3
1 0.1 0.4

\(p_X, p_Y\)。X 与 Y 独立吗?

参考答案

\(p_X = (0.5, 0.5)\), \(p_Y = (0.3, 0.7)\)。 检验: \(p_X(0) p_Y(0) = 0.5 \cdot 0.3 = 0.15 \neq 0.20 = p(0,0)\)。 所以 不独立

练习 4.7.2 — 条件期望

沿用上题, 求 \(E[X | Y = 1]\)

参考答案

\(P(X | Y = 1)\): 分母 \(p_Y(1) = 0.7\)\(P(X = 0 | Y = 1) = 0.3/0.7 = 3/7\), \(P(X = 1 | Y = 1) = 0.4/0.7 = 4/7\)\(E[X | Y = 1] = 0 \cdot 3/7 + 1 \cdot 4/7 = 4/7 \approx 0.571\)

练习 4.7.3 — 连续独立

\(f(x, y) = e^{-(x+y)}\) for \(x, y \geq 0\)。求边缘, 判断是否独立。

参考答案

\(f_X(x) = \int_0^\infty e^{-(x+y)} dy = e^{-x}\), 同理 \(f_Y(y) = e^{-y}\)\(f_X(x) f_Y(y) = e^{-x} e^{-y} = e^{-(x+y)} = f(x, y)\)独立 , 而且各自是 Exponential(1)。

练习 4.8.1 — 协方差速算

某离散 (X, Y):

X\Y 0 1
0 0.4 0.1
1 0.2 0.3

\(\mathrm{Cov}(X, Y)\), \(\rho_{X, Y}\)

参考答案

边缘: \(p_X = (0.5, 0.5)\), \(p_Y = (0.6, 0.4)\)\(E[X] = 0.5\), \(E[Y] = 0.4\), \(E[XY] = 0 \cdot 0 \cdot 0.4 + 0 \cdot 1 \cdot 0.1 + 1 \cdot 0 \cdot 0.2 + 1 \cdot 1 \cdot 0.3 = 0.3\)\(\mathrm{Cov}(X, Y) = 0.3 - 0.5 \cdot 0.4 = 0.10\)\(\mathrm{Var}(X) = 0.5 \cdot 0.5 = 0.25\), \(\mathrm{Var}(Y) = 0.6 \cdot 0.4 = 0.24\)\(\rho = 0.10 / \sqrt{0.25 \cdot 0.24} = 0.10 / 0.2449 \approx 0.408\)

练习 4.8.2 — Cov = 0 但不独立

\(X\)\(\{-1, 0, 1\}\) 等概率, \(Y = X^2\)。求 \(\mathrm{Cov}(X, Y)\)。X、Y 独立吗?

参考答案

\(E[X] = 0\), \(E[XY] = E[X \cdot X^2] = E[X^3] = (-1 + 0 + 1)/3 = 0\)。 所以 \(\mathrm{Cov}(X, Y) = 0 - 0 \cdot E[Y] = 0\)。 但 X、Y 显然不独立 (Y 完全由 X 决定): 例如 \(P(X = 0, Y = 1) = 0\)\(P(X = 0) P(Y = 1) = 1/3 \cdot 2/3 \neq 0\)

练习 4.8.3 — 投资组合

两资产 \(\sigma_A = \sigma_B = 0.20\), \(\rho = -1\)。各 50% 投资。组合方差?

参考答案

\(\mathrm{Cov} = -1 \cdot 0.2 \cdot 0.2 = -0.04\)\(\mathrm{Var}(W) = 0.25 \cdot 0.04 + 0.25 \cdot 0.04 + 2 \cdot 0.5 \cdot 0.5 \cdot (-0.04) = 0.02 - 0.02 = 0\)。 完美对冲! 这就是为什么对冲基金追求 \(\rho = -1\) 的"完美对冲", 但现实中很难找到。