跳转至

A.2   数学速查

本附录目标

  • 复习 高数 / 线代 / 概率 必备公式
  • 提供 常用导数 / 积分
  • 速查 矩阵微积分

A.2.1   极限与连续

公式
\(\lim_{x \to 0} \dfrac{\sin x}{x} = 1\)
\(\lim_{x \to \infty} (1 + 1/x)^x = e\)
\(\lim_{x \to 0} \dfrac{e^x - 1}{x} = 1\)
\(\lim_{x \to 0} \dfrac{\ln(1+x)}{x} = 1\)

A.2.2   常用导数

\(f(x)\) \(f'(x)\)
\(x^n\) \(n x^{n-1}\)
\(e^x\) \(e^x\)
\(a^x\) \(a^x \ln a\)
\(\ln x\) \(1/x\)
\(\log_a x\) \(1/(x \ln a)\)
\(\sin x\) \(\cos x\)
\(\cos x\) \(-\sin x\)
\(\tan x\) \(\sec^2 x\)
\(\arcsin x\) \(1 / \sqrt{1 - x^2}\)
\(\arctan x\) \(1 / (1 + x^2)\)

A.2.3   求导法则

  • 链式: \((f(g(x)))' = f'(g) g'\)
  • 乘积: \((uv)' = u'v + uv'\)
  • 商: \((u/v)' = (u'v - uv') / v^2\)
  • 反函数: \(\dfrac{dx}{dy} = 1 / (dy/dx)\)

A.2.4   常用积分

| \(\int f(x) dx\) | | | ---------------------------------------------------------------------------------- | --- | ---- | --- | | \(\int x^n dx = \dfrac{x^{n+1}}{n+1} + C\) (\(n \ne -1\)) | | | \(\int \dfrac{1}{x} dx = \ln | x | + C\) | | | \(\int e^x dx = e^x + C\) | | | \(\int \sin x dx = -\cos x + C\) | | | \(\int \dfrac{1}{1+x^2} dx = \arctan x + C\) | | | \(\int \dfrac{1}{\sqrt{1-x^2}} dx = \arcsin x + C\) | | | 高斯 \(\int_{-\infty}^\infty e^{-x^2} dx = \sqrt{\pi}\) | | | 高斯一般 \(\int_{-\infty}^\infty e^{-(x-\mu)^2 / 2\sigma^2} dx = \sigma\sqrt{2\pi}\) | | | Gamma \(\int_0^\infty x^{n-1} e^{-x} dx = \Gamma(n)\) | |


A.2.5   泰勒展开

\[ f(x) = f(a) + f'(a)(x-a) + \dfrac{f''(a)}{2!}(x-a)^2 + \dots \]

常见 (在 0 处):

  • \(e^x = 1 + x + x^2/2 + x^3/6 + \dots\)
  • \(\ln(1+x) = x - x^2/2 + x^3/3 - \dots\)
  • \((1+x)^\alpha = 1 + \alpha x + \dfrac{\alpha(\alpha-1)}{2} x^2 + \dots\)
  • \(\sin x = x - x^3/6 + x^5/120 - \dots\)

A.2.6   矩阵基本

概念 定义
转置 \((A^T)_{ij} = A_{ji}\)
\(\text{tr}(A) = \sum A_{ii}\)
行列式 \(\det A = \prod \lambda_i\)
特征值 \(A v = \lambda v\)
正定 \(x^T A x > 0\)\(x \ne 0\)
正交 \(A^T A = I\)
对称 \(A = A^T\), 实特征值

A.2.7   矩阵分解

分解 形式 用途
LU \(A = LU\) 解线性方程
QR \(A = QR\) OLS
Cholesky \(A = LL^T\) (对称正定) 多元高斯
特征值 \(A = V \Lambda V^{-1}\) 主成分
SVD \(A = U \Sigma V^T\) 任何矩阵, 通用

A.2.8   矩阵微积分常用

标量对向量 向量对向量
\(a^T x\) \(a\)
\(x^T A x\) \((A + A^T) x\)
\(\|x\|^2\) \(2 x\)
\(\log \det A\) (对 \(A\)) \(A^{-T}\)
\(\text{tr}(AB)\) (对 \(A\)) \(B^T\)
\(A x\) (对 \(x\)) \(A\)

链式 (Jacobian 乘): \(\dfrac{\partial f}{\partial x} = \dfrac{\partial f}{\partial g} \dfrac{\partial g}{\partial x}\).


A.2.9   概率基础

公式
全概率 \(P(B) = \sum_i P(B \mid A_i) P(A_i)\)
贝叶斯 \(P(A \mid B) = \dfrac{P(B \mid A) P(A)}{P(B)}\)
独立 \(P(AB) = P(A) P(B)\)
期望线性 \(E[aX + bY] = a E[X] + b E[Y]\)
方差 \(V(X) = E[X^2] - (E[X])^2\)
协方差 \(\text{Cov}(X, Y) = E[XY] - E[X] E[Y]\)
和方差 \(V(X+Y) = V(X) + V(Y) + 2\text{Cov}\)
矩母函数 \(M_X(t) = E[e^{tX}]\)

A.2.10   常见分布速查

分布 期望 方差
Bernoulli(\(p\)) \(p\) \(p(1-p)\)
Binomial(\(n,p\)) \(np\) \(np(1-p)\)
Poisson(\(\lambda\)) \(\lambda\) \(\lambda\)
Geometric(\(p\)) \(1/p\) \((1-p)/p^2\)
Uniform(\(a,b\)) \((a+b)/2\) \((b-a)^2/12\)
Exponential(\(\lambda\)) \(1/\lambda\) \(1/\lambda^2\)
Normal(\(\mu, \sigma^2\)) \(\mu\) \(\sigma^2\)
Gamma(\(\alpha, \beta\)) \(\alpha/\beta\) \(\alpha/\beta^2\)
Beta(\(\alpha, \beta\)) \(\dfrac{\alpha}{\alpha+\beta}\) \(\dfrac{\alpha\beta}{(\alpha+\beta)^2 (\alpha+\beta+1)}\)
\(\chi^2_k\) \(k\) \(2k\)
\(t_k\) (\(k>2\)) \(0\) \(k/(k-2)\)

A.2.11   重要不等式

  • Markov: \(P(X \geq a) \leq E[X]/a\) (\(X \geq 0\))
  • Chebyshev: \(P(|X - \mu| \geq k\sigma) \leq 1/k^2\)
  • Jensen: 凸函数 \(E[\phi(X)] \geq \phi(E[X])\)
  • Cauchy-Schwarz: \(|E[XY]| \leq \sqrt{E[X^2] E[Y^2]}\)
  • Hoeffding: 有界变量样本均值的指数集中
  • 大数定律 / 中心极限定理 (§5)

A.2.12   优化常用

概念
梯度 \(\nabla f\) 上升最快方向
Hessian \(\nabla^2 f\) 凸性: 半正定
凸函数 局部最小 = 全局最小
拉格朗日 \(L(x, \lambda) = f(x) + \lambda g(x)\)
KKT 约束优化最优条件

A.2.13   下一步

  • 下节 §A.3 概率分布表 (z, t, χ², F)。