- 深入浅出AI算法:基础概览
- 吕磊
- 2653字
- 2021-08-13 20:18:19
2.4 概率与统计
2.4.1 名词解释
在学习新概念之前,掌握常见的名词解释,好比在下厨炒菜时能熟练说出调料名和菜名一样,有助于我们加深对每个环节的了解,让学习过程变得更加顺畅。此外,准确理解并说出相应的名词概念,也是一种专业表现。
1. 概率统计
研究自然界中随机现象统计规律的数学方法,称为概率统计,又称为数理统计。概率统计主要的研究对象为随机事件、随机变量及随机过程。
2. 随机事件
概率统计统计的是随机事件发生的概率。随机事件是指在大量的重复实验中发生的概率具有某种规律的事件。例如,抛掷同一枚硬币,“正面朝上”就是一个典型的随机事件。随机事件通常简称为事件。事件之间的基本关系如表2-3所示。
表2-3 事件之间的基本关系
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/042-1.jpg?sign=1738794672-Ni3GTrFnaBaIm6PfnW5FQbgMnZV0h6tU-0-3eaf216d5b7361dfac69f872bc152f2d)
和集合运算一样,事件之间的运算也具备以下3个性质。
• 交换律:A∪B=B∪A,A∩B=B∩A。
• 结合律:A∪B∪C=A∪(B∪C),A∩B∩C=A∩(B∩C)。
• 分配律:A∩(B∪C)=(A∩B)∪( A∩C),A∪(B∩C)=(A∪B)∩( A∪C)。
3. 随机变量
事件会发生就会有结果,可以使用随机变量描述随机事件可能发生的结果,如抛十次硬币正面朝上的次数、某个地铁站每天的上车人数、灯管的寿命、某个班级学生的身高和体重等。
4. 离散型随机变量和连续型随机变量
抛硬币正面朝上的次数和地铁站的上车人数都是可数的,最小单位是1,在数学中称为离散,这类随机变量称为离散型随机变量。灯管寿命、人的身高体重的取值是连续的,没有最小单位,在数学中称为连续,这类随机变量称为连续型随机变量。
5. 随机过程
简单而言,随机过程就是随机变量随某个参数变化的过程,这个参数通常是时间,如周一至周五某个地铁站随时间变化的候车人数。
6. 数学期望
抛掷一枚质地均匀的硬币,正反两面出现的概率各占一半,在进行足够数量的抛掷实验后,正反两面实际出现的次数会各自接近50%,这个50%就是数学期望。数学期望反映的是随机变量的平均值,其计算方法是用实验中事件的发生概率乘重复实验的总次数,一般用字母μ或E表示。
7. 方差
顾名思义,方差是某种差值,主要用于衡量随机变量的实际取值与其数学期望之间的偏离程度,计算公式如下。
E{[X–E(X)]2}
8. 标准差
标准差是方差的算术平方根。
9. 协方差
协方差是指方差的多变量扩展,主要用于衡量两个随机变量X和Y之间的总体误差,计算公式如下。
E{[X–E(X)][Y–E(Y)]}
10. 概率分布
概率分布主要用于描述随机变量在随机事件中表现出来的一种状态,是概率关于随机变量的函数。
11. 概率密度
可以将概率密度直观地理解为事件发生的结果落在随机变量某段取值范围内的概率。从数学角度来说,就是概率分布函数在某段区间内的积分。有读者可能已经发现,只有连续型随机变量才有概率密度,离散型随机变量对应的概念为概率质量。
12. 条件概率
顾名思义,条件概率是指事件满足一定条件所发生的概率。在通常情况下,两个事件A和B,P(A | B)表示在事件B发生的前提下,事件A发生的概率。
2.4.2 概率分布
日常生活中到处都有概率分布的身影,本节按照从易到难的思路,给大家讲解最常见的几种概率分布。
1. 伯努利分布
伯努利分布是最简单的概率分布,随机变量只能是离散型随机变量,只有两种取值(事件成功取1,失败取0)。生活中的伯努利分布有很多。例如,明天是否下雨,雷霆队下一场对勇士队的比赛是否能赢,等等。
伯努利分布的数学期望如下。
μ=p
伯努利分布的概率质量函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/045-1.jpg?sign=1738794672-9Al86lwOnP6eANzc2ogrJ3wZh46EswJL-0-09779a8e7160abd721192b0956df5545)
2. 均匀分布
均匀分布的随机变量可以是离散型随机变量,也可以是连续型随机变量,随机变量不同取值出现的概率相等,如摇骰子就是典型的均匀分布。
均匀分布的数学期望如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/045-2.jpg?sign=1738794672-qdnsLFQkqzpcHGldHYgYrWfggQXO73e0-0-b6d236898726c2cbb2c38655687e5c8a)
均匀分布的连续型随机变量的概率密度函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/045-3.jpg?sign=1738794672-LWiAPamJEUpAQpxTX8u2PEFQvzBqfazC-0-7a58c67d67273644fc3507e57524027c)
均匀分布的连续型随机变量的概率密度函数图像如图2-3所示(假设b=2,a=1)。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/045-4.jpg?sign=1738794672-jAuBTEWzb6xv4cDvutodLdbtqjme6FMh-0-6858703f3d3962bbaf8897a32599b9a7)
图2-3 均匀分布的连续型随机变量的概率密度函数图像
3. 二项分布
顾名思义,二项分布就是取值只有正、负两种结果的概率分布,因此其随机变量只能是离散型随机变量。用数学语言描述就是,关于n个独立的二值实验中有多少次为正的离散型概率分布。
二项分布最典型的例子是抛硬币实验,抛n次硬币,k次正面朝上的概率对应的数学期望如下。
μ=np
根据排列组合,二项分布的概率质量函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/046-1.jpg?sign=1738794672-LLMXHFnSLLh9se1EqUAGQaCVieSC3FDo-0-ab0ce32e44950553bf35559fa3d4da2d)
当p=0.5、n=12时,二项分布的概率质量函数图像如图2-4所示。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/046-2.jpg?sign=1738794672-VGf7RpqDQeBHduLXQr0eNu5LLfgl2NV5-0-739166c0818fb8bf6451975020cac3da)
图2-4 二项分布的概率质量函数图像(p=0.5,n=12)
4. 几何分布
和二项分布一样,几何分布的随机变量也只能是离散型随机变量。与二项分布不同,几何分布关心的是事件(或实验)发生n次,在第x次取得成功的概率。典型的例子是打靶,在n次打靶过程中第一次命中靶心的概率。几何分布的数学期望如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/047-1.jpg?sign=1738794672-DM8vbXE8xQThmT8cKqiEj0Psf2PZ6s3J-0-7cfa4b5b688cd0f4deb453623dc82e6d)
几何分布的概率质量函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/047-2.jpg?sign=1738794672-Aw3yxwihg4xKg6Qm4yn5eWKPmldQ2u1Q-0-d4ab1ecd361a6e2dce199586eeabde9b)
当p=0.5时,几何分布的概率质量函数图像如图2-5所示。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/047-3.jpg?sign=1738794672-ZEXqds7X3ivwAfts4xGOfJSxjGTOA9Bb-0-a07db95f97fa28c187a1831f5b2e5dda)
图2-5 几何分布的概率质量函数图像(p=0.5)
5. 泊松分布
在计算二项分布的概率分布时,如果需要计算发生k次的概率,那么在二项分布中必须事先知道一个全局的n。然而,在实际问题中很难或无法预先知道对应的n是多少,如潜在乘坐公交车的乘客总数、潜在需要去银行办理业务的客户总数、潜在包子铺顾客总数等[1]。
总数n未知,难道就没有办法求概率P了吗?聪明的你应该已经联想到了取n的极限来求解P。没错,取n的极限来求解P正是泊松分布的推导过程。
根据二项分布的数学期望
μ=np
可以推导出
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/048-1.jpg?sign=1738794672-pQoxAYVn9Eph4WfxBmOofvYCgCOuWI5A-0-fd3fcee437c4b953994b420a559d3162)
泊松分布的推导过程如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/048-2.jpg?sign=1738794672-dTvXkQc5PZcrCmGR7V9YkmJCRjEo0Gmf-0-9a043dd1d7011e4d5594f06d67dbaba4)
将上式各部分拆开计算,根据指数e的下述极限计算方法,代入极限求解,P最终变成了只与k、μ相关的式子。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/048-3.jpg?sign=1738794672-evpdxj3anlBTDMpVICuLv2hIYvJiJRDW-0-bee74b66ebb5f5cbdcc7f87aa04b8ee8)
根据泊松分布的推导过程可知,泊松分布是二项分布的极限形式,因此随机变量也只能是离散型随机变量。泊松分布的概率质量函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/048-4.jpg?sign=1738794672-PStGIXmP1K43JcxKpamFe0evLMTZY2aP-0-c97dd82b206ee2171970fbba39aa99ac)
当μ=0.9时,泊松分布的概率质量函数图像如图2-6所示。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/049-1.jpg?sign=1738794672-XHrcaTeb8MAg3QePxSfkLQfEU8KkX4d9-0-3acc62e39b15c49804cc65341f182a36)
图2-6 泊松分布的概率质量函数图像(μ=0.9)
根据泊松分布的概率质量函数,已知均值μ,不需要知道总数n,就可以求得k值对应的概率。
6. 指数分布
对于泊松分布,如果将时间长度纳入考虑,就可以描述在某段时间内,事件的发生概率,而指数分布主要用于描述事件的时间间隔概率,如一家医院婴儿的出生时间间隔、一家网站的访问时间间隔等。因此,指数分布的随机变量是离散型随机变量,数学期望如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/049-2.jpg?sign=1738794672-4S8GuKjffKsruQtkXyBzQlLaRop3FYea-0-b9cf587e9aced9a0fd8f66f8bfe60525)
指数分布的概率质量函数可以通过泊松分布推导而来,具体如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/049-3.jpg?sign=1738794672-MTBBI06nRYjO0odQYrC2KQxa1ZL8lOMu-0-3a541337c2c4a42d1f65e3b35f544899)
当λ=0.8时,指数分布的概率质量函数图像如图2-7所示。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/050-1.jpg?sign=1738794672-aGuYSEs9lER1gAsszfZkbSaZupVm0xkf-0-73875674b1a0a4a050fb295e18c512f4)
图2-7 指数分布的概率质量函数图像(λ=0.8)
7. 高斯分布
高斯分布即正态分布,是生活中出现频率很高的一种概率分布,如一所学校所有学生的身高和体重、某一科考试的分数都服从高斯分布。虽然称为高斯分布,但并不是数学家高斯提出的。其实早在高斯之前就有正态分布了,只是高斯率先将正态分布应用于天文学研究,他的研究对后世影响较大,因此称为高斯分布。高斯分布的概率密度函数如下。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/050-2.jpg?sign=1738794672-xfV7h09N6lF1wbEt6L8QG8Yu2UuUb7HK-0-548315e552aad67f24a0e93fdb92eab7)
高斯分布的概率密度函数图像如图2-8所示。
![](https://epubservercos.yuewen.com/6B6C25/20862583608966506/epubprivate/OEBPS/Images/051-1.jpg?sign=1738794672-FpE2HN2IBhEAkIEwD6f51lbYSF7lGXtr-0-c36cd0ac2b9e06c9e7202b9fd41d8320)
图2-8 高斯分布的概率密度函数图像