0. 目录
1. 垫话
“概率论与数理统计”是大二的课程,那时候已经不怎么翘课打魔兽了,算是大学学的比较好的一门课,期末 20 分钟交卷考了 94(当然这也有学校垃圾卷子简单的因素在里面)。但基本上也只是停留在公式流的层面,早就忘光光了。这其实也是我国教育,尤其是工科教育的问题:从来不跟你说清楚是什么、为什么以及能干什么,填鸭就完事了。
上次在 B 站刷到“小叶的灵魂自省” up 主,其本人在一所美国大学任教,讲统计学方面的知识,把泊松分布重新学习理解了一遍,于是有了本文,感谢 up 主。
2. 前言
本文从概率分布及伯努利过程的基本概念开始,以抛硬币实验入手讲解二项分布,最后推导出泊松分布。
3. 前置概念
3.1 概率分布
所谓概率分布,就是在某个多次重复的实验中,所有能观察到的实验结果的概率的统计,这个统计的具体形式可以是表,也可以是图像(是表还是图像不重要,它们只是同一数据的不同表现形式而已)。
当然,上面这个定义是我提出的,任何一本教科书上是找不到的。这个定义重在理解,而不在严谨性,如果都理解不了,光严谨有个 P 用。
3.2 二项分布
有一类特殊的实验,对于每一次单独的实验,其结果只有两种可能,不妨称这二者可能为“成功”和“失败”。研究这类实验概率分布的就是“二项分布”。
要研究一个具体的“二项分布”,就必须要做具体的实验。这个实验可以理解为一个“过程”,这个“过程”满足一定条件时,称为“伯努利过程”。而对“二项分布”的研究,必须要基于“伯努利过程”。
3.3 伯努利过程
-
-
每次实验只会有两种可能,成功或失败。比如抛一次硬币,要么正面要么反面,你可以把“正面”定义为“成功”,或者反之。
-
每次实验,成功的概率相同。比如每次抛硬币,正面的概率都是 50%。
-
每次实验之间是独立的。比如第 n 次抛硬币的结果,与第 n – 1 次抛硬币的结果无关。
4. 二项分布
4.1 要素 & 问题
很显然 n 次抛硬币的实验就是一个伯努利过程,其符合二项分布。我们以抛硬币为例讲解二项分布。
-
-
每次实验成功的概率:每次抛硬币,成功(不妨设“正面”结果为“成功”)的概率为 50%。
在 n 次实验中,不同成功次数的概率分别是多少?具体来说,抛 3 次硬币,成功次数为 0 的概率是多少?次数为 1 的概率又是多少?以此类推。
4.2 formula
因为抛硬币太简单,大家也太熟悉,上面问题解的公式大家肯定也很熟悉:
-
表示出现 x 次成功的概率(也就是所要研究的问题)
-
4.3 intuition
当然套上一小节的公式,就可以解决问题了。但这里请忘掉公式,如果没有公式当如何求解?
没错,把所有可能出现的情况都罗列出来,然后分别统计(H 表示正面向上,T 表示反面向上):
outcomes
|
x
|
P
|
HHH
|
3
|
1/8
|
TTT
|
0
|
1/8 |
HTT
|
1
|
1/8 |
THT
|
1
|
1/8 |
TTH
|
1
|
1/8 |
HHT
|
2
|
1/8 |
HTH
|
2
|
1/8 |
THH
|
2
|
1/8 |
上面的表格罗列了实验的所有可能,但其不可称为概率分布。因为概率分布研究的是唯一化的 x:
x
|
Pr
|
0
|
1/8
|
1
|
3/8
|
2
|
3/8
|
3
|
1/8
|
4.4 conclusion
so, what is the intuition behind the formula?
实际上,公式中的 ,表示的就是罗列出所有可能实验结果的情况下,出现“x 次成功”的实验结果会有多少种情况。 你也自然懂的。
4.5 another interesting
当 n 足够大时,可以使用正态分布来近似二项分布。用正态分布来近似的好处是公式计算会更简单。
5. 泊松分布
5.1 要素 & 问题
已知一段固定长度时间内,某个实验成功次数的平均值(期望)是 n,请问在这段固定长度时间内,成功次数的概率分布是怎样的?
-
-
假设你有一个网站,已知 1 个小时内平均会有 100 个访问者(或者说,访问者人数的期望值是 100)。问,这一小时内,访问者有 1 个人的概率是多少?有 2 个人的概率是多少?以此类推。
5.2 二项分布模拟求解
如果把上面的问题转换一下,它其实是一个二项分布的问题:
将 1 个小时切分成 60 分钟,那么每一分钟内,有人访问的概率是 100 / 60,不妨记 100 为 E(x)(访问人数 x 的期望),则这个问题就转化成如下的二项分布问题:
每次实验成功的概率 P = E(x) / 60,进行 60 次实验,成功的次数为 x 的概率是多少?
5.3 二项分布模拟求解的问题
但问题显然不可能这么简单,那么就要搞清楚,用二项分布去模拟求解泊松分布的问题在哪?
如果你把 1 小时切分成 60 分钟,那么每 1 分钟内只要有人访问,而无论实际访问人数是多少(可以是 1 个人,也可以是 100 个人,还可以是 1000 个人),它都只算是一次实验成功。显然这是不合理的。
那么把 1 小时切分成 3600 秒呢?问题有所缓解,但并未根治:只不过是换成 1 秒内只要有人访问,但无论实际访问人数是多少,它都只算是一次实验成功。
要根治这个问题,就需要将 1 小时无限粒度切分。换句话说,二项分布所研究的问题是离散的,泊松分布所研究的问题是连续的,这也是高等数学相对初等数学的一个本质区别:高等数学研究连续的变化。
5.4 二项分布的极限形式
现在将 1 小时切分成 n 份间隔,n 趋向于无穷大。则有,在每份间隔上,实验成功的概率 P 为:
“泊松分布是二项分布的一种极限形式”。行文至此,这句话是不是好理解多了?
上面的公式略显 ugly,化简一下(也就是泊松分布的概率分布公式):
5.5 本质
从上一节看出,当 n 趋向于无穷大时,P 趋向于无穷小。
所以泊松分布本质上是在描述极小概率事件的概率分布。
原文始发于微信公众号(窗有老梅):从抛硬币到泊松分布