8.8 小结¶

学完本章你应能:

区分相关与因果, 计算并解读 r

拟合简单/多元线性回归, 解读系数与 \(R^2\)

做诊断 (残差图、Cook D、VIF) 并修正

使用逻辑回归处理二分类

用多项式 + 正则化在过/欠拟合之间找平衡

8.8.1 第 8 章 cheatsheet¶

图 8.8.1 回归族成员对照, 一表速查。

8.8.2 概念地图¶

 X 与 Y 关系?
 │
 ┌───────────────┼─────────────────┐
 │ │
 仅相关 (§8.1) 建模 Y = f(X)
 │
 ┌─────────────────────────┴───────────────┐
 Y 连续 Y 二分类
 │ │
 ┌───────┴───────┐ 逻辑回归 (§8.5)
 线性 (§8.2/8.3) 非线性 (§8.6) │
 │ 评估: AUC/F1/混淆
 诊断 (§8.4) ─→ 异方差/非正态/影响点
 │
 过拟合? → 正则化 (§8.7) Ridge / Lasso / EN

8.8.3 速查公式¶

OLS 闭式 : \(\hat{\beta} = (X^\top X)^{-1} X^\top y\)

\(R^2\) : \(1 - \text{SSE}/\text{SST}\), 多元用 adj-\(R^2\)

系数 t: \(t = \hat{\beta}_j / \text{SE}(\hat{\beta}_j) \sim t_{n-p-1}\)

整体 F: \(F = (\text{SSR}/p) / (\text{SSE}/(n-p-1))\)

VIF: \(1/(1 - R_j^2)\), > 5 警惕

Cook D: \(\dfrac{e_i^2}{(p+1)s^2} \cdot \dfrac{h_{ii}}{(1-h_{ii})^2}\)

Logit: \(\log(p/(1-p)) = X\beta\), OR \(= e^{\beta}\)

Ridge: \(\hat{\beta} = (X^\top X + \lambda I)^{-1} X^\top y\)

8.8.4 图¶

预测变量 Y 类型?
├─ 连续 → 线性回归 family
│ ├─ 关系曲线? → 多项式/样条/GAM (§8.6)
│ ├─ 多变量+共线/过拟合? → Ridge/Lasso/EN (§8.7)
│ ├─ 异方差? → WLS / 稳健 SE (§8.4)
│ └─ 时间序列? → 第 12 章
└─ 二分类 → 逻辑回归 (§8.5)
 └─ K 类 → 多项式逻辑 / 第 14 章 ML

8.8.5 Top 7 误区¶

误区 1: r 高就有因果

永远先想混杂、反向、巧合。

误区 2: R² 越高模型越好

加变量必涨; 看 adj-R²、CV、AIC; 警惕过拟合。

误区 3: 不看残差图就定稿

诊断比 R² 重要 10 倍。

误区 4: 系数显著就重要

大样本下小系数也能显著, 看效应大小。

误区 5: 多重共线下用 OLS 系数解释

系数不稳, 该用 Ridge 或剔变量。

误区 6: 二分类用 OLS

用逻辑回归; OLS 概率会越界。

误区 7: 正则化前不标准化

各变量尺度差异巨大, 罚不平衡, 结果错。

8.8.6 综合大题¶

某电商收集 500 用户数据, 预测下单概率与下单金额。

(a) 想预测金额 (连续), 5 个连续 + 2 个分类自变量, 怎么开始?

→ OLS 多元 + 哑变量编码; 看 adj-\(R^2\)、F、VIF; 残差诊断。

(b) 发现残差喇叭形, 怎么办?

→ log(amount) 变换 + 重新拟合, 或 WLS, 或 HC3 稳健 SE。

→ Lasso CV; 标准化后跑, 看非零系数; 或前向 stepwise (老派)。

(d) 改预测"是否下单"二分类?

→ Logistic 回归; 看 OR; 用 ROC-AUC 评估; 不平衡数据用加权或 SMOTE。

(e) AUC=0.78 算好吗?

→ 业务 OK; 关注阈值平衡精确召回; 与 baseline 对比 (随机=0.5, 业务规则可能 0.7)。

8.8.7 综合自测¶

练习 8.8.1

简单线性回归 \(\hat{y} = 3 + 2x\), 残差 SE = 1.5, \(R^2 = 0.7\), n=30。 X=5 时给出预测和 95% PI (粗略)。

参考答案

\(\hat{y} = 13\)。 PI ≈ 13 ± 2.05 × 1.5 × √(1 + 1/30 + 小项) ≈ 13 ± 3.1 = [9.9, 16.1]。

练习 8.8.2

逻辑回归 logit(p) = -2 + 0.5·X. X=4 时 P(Y=1)?

参考答案

z = -2 + 2 = 0, p = 1/(1+1) = 0.5。

练习 8.8.3

Lasso CV 选出 λ=0.1, 5 个非零系数。接下来该?

参考答案

用这 5 个变量做常规 OLS (即"post-Lasso"或"relaxed Lasso") 得无偏系数, 用于解释; Lasso 本身系数有偏。

8.8.8 下章预告¶

均哥, 我学会了两组比较 (Ch7 t 检验)、连续预测 (Ch8 回归)。那 3 组以上的均值呢?

进入第 9 章 方差分析 (ANOVA)。用 F 统计量一次性检验多组均值, 拓展到 双因素 + 交互, 再用事后检验定位差异。还会学实验设计: 完全随机、随机区组、拉丁方。

第 9 章关键词:

单因素 ANOVA & SST 分解
F 分布与 F 检验
双因素 + 交互效应
事后比较: Tukey HSD, Bonferroni, Scheffé
实验设计基本原则: 重复、随机化、区组化

8.8.9 练一练¶

本章核心练习题汇总。建议先动笔再看参考答案。

练习 8.1.1

研究发现『家里书多的孩子学习成绩好』。这意味着多买书能提高成绩吗?

参考答案

不一定。家庭社会经济地位是混杂: 有钱、重视教育的家庭既会买书, 也会以其他方式支持学习。 RCT (随机给一些家庭送书) 才能证明因果。

练习 8.1.2

判断: 当 r=0 时, X 与 Y 一定独立。

参考答案

错。 r=0 只意味着无线性关系。例: \(Y = X^2\), \(X \sim\) 对称分布, 则 r=0 但 X 与 Y 函数依赖。

练习 8.2.1

n=20 数据求得 \(\hat{\beta}_1 = 2.5, \text{SE} = 0.6\)。 95% CI? 显著吗?

参考答案

df = 18, t* ≈ 2.101。 CI = 2.5 ± 2.101×0.6 = [1.24, 3.76]。不含 0 → 显著。

练习 8.2.2

R² = 0.6 意味着模型预测精度有多高?

参考答案

R² 度量解释方差比, 不是预测准确率。 R²=0.6 即解释 60% 总变异; 残差还占 40%。实际预测精度看 RMSE / 残差 SE。

练习 8.3.1

area 系数 0.3 (SE=0.05) p<0.001, bedrooms 系数 -2 (SE=10) p=0.84 — 矛盾吗?

参考答案

不矛盾。 bedrooms 系数大但 SE 也大, 可能与 area 高度共线 (大房子卧室多)。检查 VIF; 若高, 二选一保留。

练习 8.3.2

模型 A 用 5 变量 R²=0.65, 模型 B 用 8 变量 R²=0.68。谁更好?

参考答案

要看 adj-R². 若调整后 A>B, 说明多加 3 个变量贡献微小, 应选 A (更简单, 防过拟合)。

练习 8.4.1

残差 vs ŷ 图呈 U 形, 怎么改?

参考答案

模型缺非线性项。加二次项 \(X^2\) 或对 X、Y 做 log 变换 (若值正)。

练习 8.4.2

某点 leverage h=0.4, 学生化残差 = 0.2, Cook D=?

参考答案

高杠杆但残差小 → Cook D 不大。 D 同时需要大残差才大。高杠杆点未必是强影响点。

练习 8.5.1

系数 \(\beta = -0.5\), 解读?

参考答案

OR = \(e^{-0.5} \approx 0.61\)。 X 每增 1, 几率乘以 0.61, 即下降 39%。反向影响。

练习 8.5.2

AUC=0.50 与 AUC=0.95 各意味着什么?

参考答案

0.50 = 完全瞎猜 (随机模型水平); 0.95 = 模型对正负样本排序非常好 (顶级模型)。一般业务 AUC>0.7 可用, >0.8 优秀。

练习 8.6.1

用 d=8 拟合 30 个数据点, 训练 R² = 0.999, 测试 R² = 0.4。诊断?

参考答案

严重过拟合。 30 数据用 8 次约 9 参数, 自由度太低。改 d=2 或 3, 或加正则化 (Ridge)。

练习 8.6.2

样条相比高次多项式有什么优势?

参考答案

分段低次, 局部灵活而无 Runge 震荡; 节点位置可控; 易加平滑惩罚。

练习 8.7.1

用 OLS R²(训) = 0.95, R²(测) = 0.62; 用 Ridge 在 λ=1 时 R²(训) = 0.85, R²(测) = 0.78。选谁?

参考答案

选 Ridge。测试集是真衡量泛化能力的; OLS 过拟合明显, Ridge 偏差略升但方差大降, 整体更优。

练习 8.7.2

Lasso 把 50 个变量中 45 个的系数压到 0, 这意味着什么?

参考答案

模型实际只用 5 个变量。它们是被 Lasso 视为最有解释力的; 但不能直接说其他 45 个无意义 (可能与选中的 5 个共线 → 被替代)。