跳转至

11.6   小结

第 11 章处理的是“一个对象有很多变量”的数据。小率从很多指标画不出图开始,依次遇到五类问题:压缩维度、解释潜在结构、无标签分组、有标签分类、从距离还原位置。

11.6.1   一页速查图

图 11.6.1 多元统计方法知识地图

11.6.2   核心知识地图

任务 方法 一句话
很多变量想压成几条主线 PCA 找方差最大的正交方向
想解释变量背后的潜在来源 因子分析 观测变量 = 潜在因子 + 特殊误差
没有标签,想自然分组 聚类 组内近,组间远
有标签,想找分界方向 LDA / QDA 类间远,类内紧
只有距离,想画坐标 MDS 距离矩阵还原低维坐标

11.6.3   方法速查表

方法 输入 输出 关键参数 / 指标
PCA 数据矩阵 主成分坐标、载荷 主成分数、解释方差
因子分析 相关变量表 因子载荷、因子得分 因子数、旋转、共同度
KMeans 数据矩阵 簇标签 \(K\)、轮廓系数
层次聚类 数据或距离 树状图、簇标签 linkage、切树位置
DBSCAN 数据矩阵 簇标签、噪声点 \(\varepsilon\)、min_samples
LDA 数据 + 标签 判别轴、预测类别 类别数、共享协方差
QDA 数据 + 标签 非线性边界 每类协方差
MDS 距离矩阵 低维坐标 维度、Stress

11.6.4   多元问题决策树

先问三个问题

先问有没有标签;再问目标是降维、解释、分组还是分类;最后看数据形状、距离定义和可解释性要求。

场景 推荐起点
无标签,只想画二维图 PCA / MDS
无标签,想自动分组 KMeans / 层次聚类 / DBSCAN
有标签,想分类并可视化 LDA
类别边界明显弯曲 QDA 或非线性模型
问卷题目很多,想找潜在维度 因子分析
只有相似度或距离表 MDS

11.6.5   常见误读

需要注意

PCA 主成分不等于因果因素;聚类标签不等于真实人群;t-SNE 图上的簇间距离不一定可信;LDA 的判别轴最多只有 \(K-1\) 维;MDS 坐标可以旋转和镜像。

常见误读可以压成五句话:

  • PCA 不是删除变量,而是重组变量。
  • 因子分析的因子命名需要领域知识。
  • 聚类结果必须回到业务或研究问题验证。
  • LDA 用标签,PCA 不用标签。
  • MDS 保距离,不保方向。

11.6.6   术语对照表 (Glossary)

中文 English 本章语境
主成分分析 Principal Component Analysis 方差最大方向
因子分析 Factor Analysis 潜在结构解释
载荷 Loading 原变量与主成分 / 因子的关系
共同度 Communality 公共因子解释的方差比例
聚类 Clustering 无标签分组
轮廓系数 Silhouette Score 聚类紧凑与分离程度
线性判别分析 Linear Discriminant Analysis 有监督降维和分类
二次判别分析 Quadratic Discriminant Analysis 弯曲分类边界
多维尺度分析 Multidimensional Scaling 距离矩阵还原坐标
应力 Stress MDS 距离还原误差

小率的笔记本

多元统计不是一套算法,而是一组工具箱。变量太多先考虑 PCA;想解释潜在结构用因子分析;没有标签想分组用聚类;有标签想分类用 LDA/QDA;只有距离矩阵就用 MDS。每种方法都要先问“我到底想保留什么信息”。


11.6.7   练一练

练习 11.1

一组变量量纲差异很大,做 PCA 前要先做什么?为什么?

参考答案

通常要先标准化。否则量纲大的变量会主导协方差和主成分方向。

练习 11.2

PCA 和因子分析最大的解释差异是什么?

参考答案

PCA 主要做几何降维,解释总方差;因子分析假设观测变量由少数潜在因子和特殊误差生成,重点解释公共结构。

练习 11.3

KMeans 为什么不适合月牙形簇?

参考答案

KMeans 用中心和欧氏距离划分,偏好近似球形的簇。月牙形簇不是凸形,容易被硬切错。

练习 11.4

LDA 最多能降到几维?

参考答案

最多 \(K-1\) 维,\(K\) 是类别数。二分类最多 1 维,三分类最多 2 维。

练习 11.5

MDS 输出图整体旋转 90 度算错吗?

参考答案

不算错。MDS 只保留点间距离,整体平移、旋转、镜像都不会改变距离。