4.9 小结¶
小率把第 4 章的草稿摊开,发现这一章其实只有一条主线:先把随机结果变成数字,再用分布描述它,用期望和方差总结它,用正态分布近似它,最后把两个变量放在一起看。
4.9.1 一页速查图¶
4.9.2 核心知识地图¶
4.9.3 随机变量速查表¶
| 问题 | 关键词 | 常用对象 |
|---|---|---|
| 结果能否变成数字 | “正面次数”“等待时间”“赔付金额” | 随机变量 \(X\) |
| 某个取值概率 | 数得清的点 | PMF:\(P(X=x)\) |
| 不超过某值概率 | 累积到这里 | CDF:\(F(x)=P(X\le x)\) |
| 区间概率 | 连续变量、面积 | PDF 下方面积 |
| 长期平均 | 重复很多次后的平均 | 期望 \(E[X]\) |
| 波动大小 | 离中心有多远 | 方差 \(Var(X)\) |
| 标准化位置 | 高出平均几个标准差 | \(Z=(X-\mu)/\sigma\) |
| 两个变量一起看 | 成对数据、二维表 | 联合分布、协方差、相关系数 |
4.9.4 选哪个分布¶
问题是数得清还是连续?
├─ 数得清
│ ├─ 一次成败 → Bernoulli
│ ├─ 固定次数成功数 → Binomial
│ ├─ 等到第一次成功 → Geometric
│ └─ 单位时间或区域次数 → Poisson
└─ 连续
├─ 区间内同样可能 → Uniform
├─ 等下一次事件 → Exponential
└─ 大量小因素叠加、钟形近似 → Normal
4.9.5 常见误区 Top 5¶
误区 1:PDF 高度当成概率
连续变量的概率来自面积,不来自单点高度。\(f(x)\) 可以大于 1,但区间面积必须合计为 1。
误区 2:期望就是最可能出现的值
期望是长期平均或重心,不一定是某个真实可能取值。抽奖的期望可以是 4.75 元,但单次不会抽到 4.75 元。
误区 3:方差相加总是成立
\(Var(X+Y)=Var(X)+Var(Y)\) 需要独立或协方差为 0;一般情况要加 \(2Cov(X,Y)\)。
误区 4:相关系数为 0 就代表独立
\(r=0\) 只说明无线性相关,不代表没有非线性关系,也不必然代表独立。
误区 5:看到钟形就一定正态
正态分布是常用近似,不是自动成立。要结合变量背景、直方图和上下限判断。
4.9.6 复盘交互 · 从变量到关系¶
复盘路线
做题时先写清楚 \(X\) 是什么,再判断分布类型;能算期望和方差后,再考虑是否需要标准化;如果有两个变量,就先画散点图或联合表。
4.9.7 术语对照表 (Glossary)¶
| 中文 | English | 一句话解释 |
|---|---|---|
| 随机变量 | Random Variable | 把随机结果映射成数字的函数 |
| 概率质量函数 | PMF | 离散变量每个取值的概率 |
| 概率密度函数 | 连续变量的概率密度,概率来自面积 | |
| 累积分布函数 | CDF | \(P(X\le x)\) 的函数 |
| 期望 | Expectation | 长期平均或概率重心 |
| 方差 | Variance | 离中心平方距离的平均 |
| 标准差 | Standard Deviation | 方差开根号,和原变量同单位 |
| 标准化 | Standardization | 把原变量转成 z 值 |
| 联合分布 | Joint Distribution | 两个变量同时取值的概率结构 |
| 协方差 | Covariance | 两个变量是否同向偏离均值 |
| 相关系数 | Correlation | 标准化后的协方差,范围在 -1 到 1 |
4.9.8 下章预告¶
第 4 章把“一个随机变量长什么样”讲清楚了;第 5 章会继续问:现实里我们通常拿不到总体,只能抽样。样本均值、样本比例和样本方差本身也会随机波动,它们的分布就是抽样分布。
小率的笔记本
随机变量让随机结果进入数轴;分布告诉我每个位置有多可能;期望和方差把分布压缩成中心和波动;正态分布提供常用近似和标准化语言;联合分布、协方差与相关性则把视角从一个变量扩展到两个变量。
4.9.9 练一练¶
本章核心练习题汇总。建议先动笔再看参考答案。
练习 4.1.1 — 抛三枚硬币
设 X = 三枚硬币中正面数, 写出 PMF 和 CDF 表 (列出所有取值)。
参考答案
样本空间 |Ω| = 8。
| x | P(X=x) | F(x) |
|---|---|---|
| 0 | ⅛ = 0.125 | 0.125 |
| 1 | ⅜ = 0.375 | 0.500 |
| 2 | ⅜ = 0.375 | 0.875 |
| 3 | ⅛ = 0.125 | 1.000 |
练习 4.1.2 — CDF 反推 PMF
某离散 RV 的 CDF 表为 F(0)=0.2, F(1)=0.5, F(2)=0.8, F(3)=1.0。求 PMF。
参考答案
P(X=0) = 0.2, P(X=1) = 0.3, P(X=2) = 0.3, P(X=3) = 0.2。 校验和 = 1 ✓
练习 4.1.3 — 连续 RV 一句话
解释为什么对连续 RV, P(X = 5.0) = 0, 但 P(4.99 < X < 5.01) > 0?
参考答案
连续分布是『面积』; 单点 x=5 是宽度为 0 的线段, 面积 = 0。但任何宽度大于 0 的区间 [4.99, 5.01] 在 PDF 下方都有非零面积, 所以概率为正。这也是为什么连续 RV 的概率必须用区间或积分表达。
练习 4.2.1 — Binomial 心算
某药对患者有效率 80%, 给 5 个患者用药, 求至少 4 人有效的概率。
参考答案
\(X \sim \text{Binom}(5, 0.8)\)。 \(P(X = 4) = C_5^4 \cdot 0.8^4 \cdot 0.2 = 5 \cdot 0.4096 \cdot 0.2 = 0.4096\) \(P(X = 5) = 0.8^5 = 0.3277\) \(P(X \geq 4) = 0.7373\) ≈ 73.7%。
练习 4.2.2 — Geometric
扔一颗骰子直到出现 6 为止, 求期望扔几次? P(扔 ≤ 5 次内出现) ?
参考答案
\(X \sim \text{Geom}(1/6)\), \(E[X] = 6\)。 \(P(X \leq 5) = 1 - P(X > 5) = 1 - (5/6)^5 \approx 1 - 0.402 = 0.598\)。
练习 4.2.3 — Poisson 应用
某网站平均每天宕机 0.5 次。求 (a) 某天不宕机的概率; (b) 一周 (7 天) 至少宕一次的概率。
参考答案
(a) \(P(X = 0) = e^{-0.5} \approx 0.607\)。 (b) 一周 \(Y \sim \text{Poisson}(3.5)\), \(P(Y \geq 1) = 1 - e^{-3.5} \approx 0.970\)。 日均看似稳定 (60% 不宕), 一周却 97% 至少宕一次——风险叠加是 Poisson 思维的常见反直觉。
练习 4.3.1 — Uniform 应用
某游戏奖励金额服从 Uniform(10, 50) 元。 (a) 平均奖金? (b) 奖金 ≥ 30 元的概率? © 方差?
参考答案
(a) \(E[X] = (10+50)/2 = 30\) 元 (b) \(P(X \geq 30) = (50-30)/(50-10) = 0.5\) © \(\mathrm{Var}[X] = (50-10)^2 / 12 = 1600/12 \approx 133.3\)
练习 4.3.2 — Exponential 灯泡
某品牌灯泡寿命服从 Exponential, 平均 1000 小时。 (a) λ = ? (b) 灯泡用满 800 小时不坏的概率? © 假定它已用了 500 小时, 再用 800 小时不坏的概率?
参考答案
(a) \(\lambda = 1/1000 = 0.001\)。 (b) \(P(X > 800) = e^{-0.8} \approx 0.449\)。 © 由无记忆性 = \(P(X > 800) \approx 0.449\)。已用 500 小时跟没用一样, 这正是无记忆性的本质 (现实中部件老化的灯泡当然不符合, 所以指数分布对老化电子元件不是最佳模型, 通常用 Weibull)。
练习 4.3.3 — PDF 与概率
某 RV 的 PDF 在 x=2 处 f(2) = 1.5。能否说 P(X = 2) = 1.5?
参考答案
不能。f(x) 是密度, 不是概率, 可以大于 1。P(X = 2) = 0 (单点)。 在区间 [2 - dx/2, 2 + dx/2] 内的概率约 ≈ f(2) · dx = 1.5 · dx, 当 dx → 0 时趋于 0。
练习 4.4.1 — 线性性应用
某餐厅一桌平均消费 \(E[X] = 200\) 元。一个月 \(N \sim\) Poisson(450) 桌, 每桌消费独立。求月营业额期望。
参考答案
营业额 \(S = X_1 + \dots + X_N\), 其中 \(N\) 也是随机的。 用全期望: \(E[S] = E[E[S|N]] = E[N \cdot E[X]] = 200 \cdot E[N] = 200 \cdot 450 = 90000\) 元。
练习 4.4.2 — 詹森
若 \(X\) 等概率取 2 或 8, 比较 \(E[X^2]\) 和 \((E[X])^2\)。
参考答案
\(E[X] = 5\), \((E[X])^2 = 25\)。 \(E[X^2] = 0.5 \cdot 4 + 0.5 \cdot 64 = 34 > 25\)。 因 \(g(x) = x^2\) 凸, Jensen: \(E[g(X)] \geq g(E[X])\)。差额 34-25 = 9 = \(\mathrm{Var}[X]\) — 这正是下一节的方差定义!
练习 4.4.3 — 不公平骰子
某六面骰子被改造, P(X=k) ∝ k (k=1..6)。求 E[X]。
参考答案
归一化常数 = 1+2+3+4+5+6 = 21, 所以 \(P(X=k) = k/21\)。 \(E[X] = \sum k \cdot k/21 = (1+4+9+16+25+36)/21 = 91/21 ≈ 4.33\)。 比公平骰 3.5 偏大, 因为高点权重更高。
练习 4.5.1 — 速算公式
某 RV 取 1, 2, 3, 4, 5, 概率分别是 0.1, 0.2, 0.4, 0.2, 0.1。求 E[X], Var[X]。
参考答案
\(E[X] = 1·0.1 + 2·0.2 + 3·0.4 + 4·0.2 + 5·0.1 = 3\) \(E[X^2] = 1·0.1 + 4·0.2 + 9·0.4 + 16·0.2 + 25·0.1 = 0.1 + 0.8 + 3.6 + 3.2 + 2.5 = 10.2\) \(\mathrm{Var}[X] = 10.2 - 9 = 1.2\), \(\sigma = \sqrt{1.2} \approx 1.095\)。
练习 4.5.2 — 平移与缩放
若 \(\mathrm{Var}[X] = 4\), 求 \(\mathrm{Var}[3X - 5]\)。
参考答案
\(\mathrm{Var}[3X - 5] = 3^2 \cdot 4 = 36\)。常数 -5 不影响方差; 系数 3 平方后乘进来。
练习 4.5.3 — Chebyshev 应用
某 RV 期望 100, 方差 16。求 P(70 ≤ X ≤ 130) 的下界。
参考答案
\(\sigma = 4\)。70 = μ - 7.5σ, 130 = μ + 7.5σ。 \(P(|X - 100| \geq 7.5\sigma) \leq 1/7.5^2 \approx 0.018\)。 所以 \(P(70 \leq X \leq 130) \geq 1 - 0.018 \approx 98.2\%\)。Chebyshev 的下界, 任何分布都成立。
练习 4.6.1 — 经验法则速答
某产品寿命 \(\sim N(1000, 100^2)\) 小时。粗略说: 中间 68% 的产品寿命落在哪个区间?
参考答案
\([1000 - 100, 1000 + 100] = [900, 1100]\) 小时。
练习 4.6.2 — 反向查表
某成绩 \(\sim N(75, 10^2)\)。教师想给前 5% 同学颁奖, 分数线应是?
参考答案
\(\Phi(z) = 0.95 \Rightarrow z = 1.645\)。 分数线 \(= 75 + 1.645 \cdot 10 = 91.45 \approx\) 92 分 。
练习 4.6.3 — 独立和
\(X_1 \sim N(0, 4)\), \(X_2 \sim N(0, 9)\) 独立。求 \(X_1 - X_2\) 的分布。
参考答案
\(X_1 - X_2 = X_1 + (-X_2)\), \(-X_2 \sim N(0, 9)\) (注意方差不变, \(a^2 = 1\))。 所以 \(X_1 - X_2 \sim N(0 + 0, 4 + 9) = N(0, 13)\), \(\sigma = \sqrt{13} \approx 3.61\)。 差也是正态, 方差仍然相加 (不是相减! 这是常见错误)。
练习 4.7.1 — 边缘分布
给定如下联合 PMF:
| X\Y | 0 | 1 |
|---|---|---|
| 0 | 0.2 | 0.3 |
| 1 | 0.1 | 0.4 |
求 \(p_X, p_Y\)。X 与 Y 独立吗?
参考答案
\(p_X = (0.5, 0.5)\), \(p_Y = (0.3, 0.7)\)。 检验: \(p_X(0) p_Y(0) = 0.5 \cdot 0.3 = 0.15 \neq 0.20 = p(0,0)\)。 所以 不独立 。
练习 4.7.2 — 条件期望
沿用上题, 求 \(E[X | Y = 1]\)。
参考答案
\(P(X | Y = 1)\): 分母 \(p_Y(1) = 0.7\)。 \(P(X = 0 | Y = 1) = 0.3/0.7 = 3/7\), \(P(X = 1 | Y = 1) = 0.4/0.7 = 4/7\)。 \(E[X | Y = 1] = 0 \cdot 3/7 + 1 \cdot 4/7 = 4/7 \approx 0.571\)。
练习 4.7.3 — 连续独立
\(f(x, y) = e^{-(x+y)}\) for \(x, y \geq 0\)。求边缘, 判断是否独立。
参考答案
\(f_X(x) = \int_0^\infty e^{-(x+y)} dy = e^{-x}\), 同理 \(f_Y(y) = e^{-y}\)。 \(f_X(x) f_Y(y) = e^{-x} e^{-y} = e^{-(x+y)} = f(x, y)\) ✓ 独立 , 而且各自是 Exponential(1)。
练习 4.8.1 — 协方差速算
某离散 (X, Y):
| X\Y | 0 | 1 |
|---|---|---|
| 0 | 0.4 | 0.1 |
| 1 | 0.2 | 0.3 |
求 \(\mathrm{Cov}(X, Y)\), \(\rho_{X, Y}\)。
参考答案
边缘: \(p_X = (0.5, 0.5)\), \(p_Y = (0.6, 0.4)\)。 \(E[X] = 0.5\), \(E[Y] = 0.4\), \(E[XY] = 0 \cdot 0 \cdot 0.4 + 0 \cdot 1 \cdot 0.1 + 1 \cdot 0 \cdot 0.2 + 1 \cdot 1 \cdot 0.3 = 0.3\)。 \(\mathrm{Cov}(X, Y) = 0.3 - 0.5 \cdot 0.4 = 0.10\)。 \(\mathrm{Var}(X) = 0.5 \cdot 0.5 = 0.25\), \(\mathrm{Var}(Y) = 0.6 \cdot 0.4 = 0.24\)。 \(\rho = 0.10 / \sqrt{0.25 \cdot 0.24} = 0.10 / 0.2449 \approx 0.408\)。
练习 4.8.2 — Cov = 0 但不独立
\(X\) 取 \(\{-1, 0, 1\}\) 等概率, \(Y = X^2\)。求 \(\mathrm{Cov}(X, Y)\)。X、Y 独立吗?
参考答案
\(E[X] = 0\), \(E[XY] = E[X \cdot X^2] = E[X^3] = (-1 + 0 + 1)/3 = 0\)。 所以 \(\mathrm{Cov}(X, Y) = 0 - 0 \cdot E[Y] = 0\)。 但 X、Y 显然不独立 (Y 完全由 X 决定): 例如 \(P(X = 0, Y = 1) = 0\) 而 \(P(X = 0) P(Y = 1) = 1/3 \cdot 2/3 \neq 0\)。
练习 4.8.3 — 投资组合
两资产 \(\sigma_A = \sigma_B = 0.20\), \(\rho = -1\)。各 50% 投资。组合方差?
参考答案
\(\mathrm{Cov} = -1 \cdot 0.2 \cdot 0.2 = -0.04\)。 \(\mathrm{Var}(W) = 0.25 \cdot 0.04 + 0.25 \cdot 0.04 + 2 \cdot 0.5 \cdot 0.5 \cdot (-0.04) = 0.02 - 0.02 = 0\)。 完美对冲! 这就是为什么对冲基金追求 \(\rho = -1\) 的"完美对冲", 但现实中很难找到。

