跳转至

4.2   离散型分布

小率把社团活动记录表摊在桌上:投篮是否命中、10 次答题答对几题、第一次抽到中奖卡要抽几次、奶茶店一小时来了多少单。它们看起来是四个生活问题,但背后都有一个共同点:结果数得清。

图 4.2.0 离散分布来自数得清的结果

图 4.2.0   离散分布适合描述“次数、个数、是否发生”这类数得清的问题。

哪一种分布适合这张记录表

同样是离散随机变量,问题结构不同,常用分布也不同。先看“一次成败”“固定次数”“等到第一次”“单位时间次数”四个关键词。

4.2.1   一次成败看 Bernoulli

如果我只记录“这次投篮进没进”,它只有两个结果。
这就是 Bernoulli 分布:成功记 1,失败记 0。

\(X\sim \mathrm{Bernoulli}(p)\),则:

\[ P(X=1)=p,\qquad P(X=0)=1-p \]

它的期望和方差是:

\[ E[X]=p,\qquad Var(X)=p(1-p) \]

4.2.2   固定次数看 Binomial

如果小率投 10 次篮,想记录命中次数 \(X\),每次命中概率近似为 \(p\),且每次相互独立,那么:

\[ X\sim \mathrm{Binomial}(n,p) \]
\[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \]
Bernoulli 是一次,Binomial 是很多次 Bernoulli 加起来?
非常好。固定做 $n$ 次,数成功次数,就是 Binomial。

4.2.3   等到第一次看 Geometric

有时问题不是“10 次里成功几次”,而是“第一次成功要等几次”。例如抽卡第一次抽中,或者第一次接到有效电话。

若每次成功概率是 \(p\)\(X\) 表示第一次成功发生在第几次:

\[ P(X=k)=(1-p)^{k-1}p,\qquad k=1,2,3,\dots \]

别把两个问题混在一起

“10 次里成功几次”是 Binomial;“第几次才第一次成功”是 Geometric。它们都和成功概率 \(p\) 有关,但问法不一样。

4.2.4   单位时间次数看 Poisson

奶茶店一小时来多少单、客服中心一分钟接到多少电话、某路口一天发生多少次小事故,这类“单位时间或单位区域内的次数”常用 Poisson 分布。

\(X\sim \mathrm{Poisson}(\lambda)\)

\[ P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!} \]

其中 \(\lambda\) 表示平均次数。

图 4.2.1 四个最常用的离散分布

图 4.2.1   四种离散分布对应四种问题结构:一次、固定次数、等到第一次、单位时间次数。

4.2.5   Binomial 什么时候像 Poisson

\(n\) 很大、\(p\) 很小,但 \(\lambda=np\) 稳定时,Binomial 分布会接近 Poisson 分布。这常用于“很多次机会,每次概率很小”的场景。

图 4.2.2 Binomial 极限趋向 Poisson

图 4.2.2   当试验次数增加、单次概率变小,Binomial 的形状会逐渐贴近 Poisson。
所以 Poisson 不是凭空来的,它像是很多小概率事件堆出来的。
对。很多“罕见但机会很多”的计数,都可以先想到 Poisson。

4.2.6   用 Python 计算四种概率

from scipy import stats

print("一次投篮命中:", stats.bernoulli(p=0.7).pmf(1))
print("10 次命中 7 次:", stats.binom(n=10, p=0.7).pmf(7))
print("第 3 次才成功:", stats.geom(p=0.2).pmf(3))
print("一小时来 25 单:", stats.poisson(mu=20).pmf(25))

三秒判断法

  • 一次成败:Bernoulli
  • 固定次数成功数:Binomial
  • 第一次成功等待次数:Geometric
  • 单位时间或区域次数:Poisson

小率的笔记本

  • 离散分布描述数得清的取值。
  • Bernoulli 是一次成败,Binomial 是固定次数成功数。
  • Geometric 问第一次成功要等多久。
  • Poisson 问单位时间或单位区域里出现多少次。