11.6 小结¶

第 11 章处理的是“一个对象有很多变量”的数据。小率从很多指标画不出图开始，依次遇到五类问题：压缩维度、解释潜在结构、无标签分组、有标签分类、从距离还原位置。

11.6.1 一页速查图¶

方法	输入	输出	关键参数 / 指标
PCA	数据矩阵	主成分坐标、载荷	主成分数、解释方差
因子分析	相关变量表	因子载荷、因子得分	因子数、旋转、共同度
KMeans	数据矩阵	簇标签	\(K\)、轮廓系数
层次聚类	数据或距离	树状图、簇标签	linkage、切树位置
DBSCAN	数据矩阵	簇标签、噪声点	\(\varepsilon\)、min_samples
LDA	数据 + 标签	判别轴、预测类别	类别数、共享协方差
QDA	数据 + 标签	非线性边界	每类协方差
MDS	距离矩阵	低维坐标	维度、Stress

先问三个问题

先问有没有标签；再问目标是降维、解释、分组还是分类；最后看数据形状、距离定义和可解释性要求。

需要注意

PCA 主成分不等于因果因素；聚类标签不等于真实人群；t-SNE 图上的簇间距离不一定可信；LDA 的判别轴最多只有 \(K-1\) 维；MDS 坐标可以旋转和镜像。

常见误读可以压成五句话：

中文	English	本章语境
主成分分析	Principal Component Analysis	方差最大方向
因子分析	Factor Analysis	潜在结构解释
载荷	Loading	原变量与主成分 / 因子的关系
共同度	Communality	公共因子解释的方差比例
聚类	Clustering	无标签分组
轮廓系数	Silhouette Score	聚类紧凑与分离程度
线性判别分析	Linear Discriminant Analysis	有监督降维和分类
二次判别分析	Quadratic Discriminant Analysis	弯曲分类边界
多维尺度分析	Multidimensional Scaling	距离矩阵还原坐标
应力	Stress	MDS 距离还原误差

小率的笔记本

多元统计不是一套算法，而是一组工具箱。变量太多先考虑 PCA；想解释潜在结构用因子分析；没有标签想分组用聚类；有标签想分类用 LDA/QDA；只有距离矩阵就用 MDS。每种方法都要先问“我到底想保留什么信息”。

练习 11.1

一组变量量纲差异很大，做 PCA 前要先做什么？为什么？

参考答案

通常要先标准化。否则量纲大的变量会主导协方差和主成分方向。

练习 11.2

PCA 和因子分析最大的解释差异是什么？

参考答案

PCA 主要做几何降维，解释总方差；因子分析假设观测变量由少数潜在因子和特殊误差生成，重点解释公共结构。

练习 11.3

KMeans 为什么不适合月牙形簇？

参考答案

KMeans 用中心和欧氏距离划分，偏好近似球形的簇。月牙形簇不是凸形，容易被硬切错。

练习 11.4

LDA 最多能降到几维？

参考答案

最多 \(K-1\) 维，\(K\) 是类别数。二分类最多 1 维，三分类最多 2 维。

练习 11.5

MDS 输出图整体旋转 90 度算错吗？

参考答案

不算错。MDS 只保留点间距离，整体平移、旋转、镜像都不会改变距离。