概率论基础知识

本文介绍机器学习中的相关概率论知识

本文中主要涉及到的知识点如下:

机器学习中为什么要使用概率
频率学派概率和贝叶斯学派概率
何为随机变量和何为概率分布
条件概率，联合概率，全概率公式
边缘概率
独立性和条件独立性
期望，方差，协方差和相关系数
贝叶斯及其应用
中心极限定理
极大似然估计
概率论中的独立同分布

机器学习中为什么要用到概率

我们借助概率论来解释分析机器学习为什么是这样的，有什么依据，同时反过来借助概率论来推导出更多机器学习算法。很多人说机器学习是星座学，最主要的原因是机器学习的很多不可解释性，我们应用概率知识可以解释一部分，但还是很多值得我们去解释理解的东西。
这是因为机器学习通常必须处理不确定量,有时也可能需要处理随机 (非确定性的) 量。不确定性和随机性可能来自多个方面。总结如下：
- 被建模系统内在的随机性：例如一个假想的纸牌游戏，在这个游戏中我们假设纸牌被真正混洗成了随机顺序。假如这个时候你要对这个这个游戏建模(例如预测抽的牌点数)，虽然牌的数量和所有牌有什么是确定的，但是若我们随机抽一张，这个牌是什么是随机的。这个时候就要使用概率去建模了。
- 不完全观测：例如一个游戏节目的参与者被要求在三个门之间选择，并且会赢得放置在选中门后的奖品。其中两扇门通向山羊，第三扇门通向一辆汽车。选手的每个选择所导致的结果是确定的，但是站在选手的角度，结果是不确定的。在机器学习中也是这样，很多系统在预测的时候，是不确定的，这个时候我们就要用一个”软度量“即概率去描述它。
- 不完全建模：假设我们制作了一个机器人，它可以准确地观察周围每一个对象的位置。在对这些对象将来的位置进行预测时，如果机器人采用的是离散化的空间，那么离散化的方法将使得机器人无法确定对象们的精确位置：因为每个对象都可能处于它被观测到的离散单元的任何一个角落。也就是说，当不完全建模时，我们不能明确的确定结果，这个时候的不确定，就需要概率来补充。

频率学派概率和贝叶斯学派概率

**频率学派概率：**研究的是事件本身，所以研究者只能反复试验去逼近它从而得到结果。比如：想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

**贝叶斯学派概率：**研究的是观察者对事物的看法，所以你可以用先验知识和收集到的信息去描述他，然后用一些证据去证明它。还是比如抛硬币，当小明知道一枚硬币是均匀的，然后赋予下一次抛出结果是正面或反面都是50%的可信度（概率分布），可能是出于认为均匀硬币最常见这种信念，然后比如小明随机抛了1000次，发现结果正是这样，那么它就通过这些证据验证了自己的先验知识。（也有存在修改的时候，比如发现硬币的材质不一致，总之就是这么一个过程）

总的来说，两个学派站的角度不一样，贝叶斯概率论为人的知识（knowledge）建模来定义概率这个概念。频率学派试图描述的是事物本体，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新，描述的是观察这的对事物看法。

何为随机变量和何为概率分布

**随机变量：**随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身，而用带数字下标的小写字母来表示随机变量能够取到的值。例如， $x\_1$ 和 $x\_2$ 都是随机变量X可能的取值。

对于向量值变量，我们会将随机变量写成 $X$ ，它的一个值为 $x$ 。就其本身而言，一个随机变量只是对可能的状态的描述；它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。

**概率分布：**给定某随机变量的取值范围，概率分布就是导致该随机事件出现的可能性。而从机器学习的角度来说的话，概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。

条件概率、联合概率、全概率公式

**条件概率：**其记号为 $P(A|B)$ ，表示在给定条件 $B$ 下 $A$ 事件发生的概率。

条件概率的两种情况：

B事件的结果不会影响到A事件的发生。所以A事件发生的概率=A事件单独发生的概率。记为： $P(A|B) =P(A)$
B事件的结果会影响A事件的发生。如：若头天下雨，则第二天下雨的可能性会增大。即：A事件在B事件之后发生的概率> A事件单独发生的概率。记为： $P(A|B)> P(A)$

条件概率链式法则：

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：

$P(x^{(1)},\cdots,x^{(n)})=p(x^{(1)}\prod\_{i=2}^np(x^{i})|x^{(1)},\cdots,x^{i-1})$

**联合概率：**联合概率为两个或者事件同时发生的概率。记为：P(A and B)或直接P(AB)

因为两个事件的发生会有先后，所以联合概率可以进一步描述为：“事件A发生的概率”和“事件A发生后，事件B发生的概率”。于是： $P(A \cup B)= P(A)P(B|A)$

**全概率公式：**公式表示若事件 $B\_1,B\_2,\cdots,Bn$ 构成一个完备事件组且都有正概率，则对任意一个事件A都有全概率公式成立。

定理：设 $B\_1,B\_2,\cdots,B\_n$ 为 $S$ 的一个划分且 $P(B\_i)>0$ .则有全概率公式：

$P(A)=\sum\_{j=1}^nP(B\_j)P(A|B\_j)$

边缘概率

**边缘概率：**当我们知道一组变量的联合概率分布时，若我们想知道一个子集的概率分布。那么定义在子集上的概率分布就被我们称为边缘概率分布。

离散型随机变量：X和Y，并且我们知道P(X, Y)。我们可以依据下面的求和法则来计算P(x):

$\forall x \in X, P(X=x)=\sum\_y(X=x,Y=y)$

连续型随机变量:通过积分替代求和

$p(x)=\int p(x,y)dy$

独立性和条件独立性

**独立性：**两个随机变量x和y，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含x另一个因子只包含y，我们就称这两个随机变量是相互独立的：

$\forall x \in X,y \in Y,p(X=x,Y=y)=p(X=x)p(Y=y)$

**条件独立性：**如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式，那么这两个随机变量 x 和 y 在给定随机变量 z 时是条件独立的(conditionally independent):

$\forall x \in X,y \in Y, z \in Z,p(X=x,Y=y|Z=z)=p(X=x|Z=z)p(Y=y|Z=z)$

可以采用一种简化形式来表示独立性和条件独立性: $x\perp y$ 表示 x 和 y 相互独立，$x\perp y | z $表示 x 和 y 在给定 z 时条件独立。

期望、方差、协方差、相关系数

在概率论和统计学中，数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一，反映随机变量平均值的大小。

**离散随机变量：**假设X是一个离散随机变量，其可能的取值有： ${x\_1,x\_2,\cdots,x\_n}$ ，各个取值对应的概率取值为： ${P(x\_k),k=1,2,\cdots,n}$ ，则其数学期望被定义为：

$E(X)=\sum\_{k=1}^nx\_kP(x\_k)$

**连续型随机变量：**假设X是一个连续型随机变量，其概率密度函数为 $P(x)$ ，则其数学期望被定义为：

$E(x)=\int\_{-\infty}^{+\infty}xf(x)dx$

方差：概率中，方差用来衡量随机变量与其数学期望之间的偏离程度；统计中的方差为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数。

协方差: 在概率论和统计学中，协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为：

$Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]$

相关系数：相关关系是一种非确定性的关系，相关系数是研究变量之间线性相关程度的量。

**简单相关关系：**又叫相关系数或线性相关系数，一般用字母r 表示，用来度量两个变量间的线性关系。定义式：

$r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}$

其中 $Var[]$ 计算方差。

贝叶斯定理

贝叶斯定理是一种“根据数据集内容的变化而更新假设概率”的方法。

对于事件A和B，贝叶斯定理的表达式可写成：

$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

中心极限定理

**中心极限定理：**是概率论中的一组定理。中央极限定理说明，大量相互独立的随机变量，其均值的分布以正态分布为极限。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

极大似然估计

最大似然估计：是利用已知的样本结果，反推最有可能导致这样结果的参数值的方法。

离散型变量

设离散型总体 $X ~ p(x;\theta),\theta\in \Theta,\theta$ 未知。 $X\_1,\cdots,X\_n$ 为样本，其观测值为 $x\_1,\cdots,x\_n$ ,则事件 ${X\_1=x\_1,\cdots,X\_n=x\_n}$ 发生的概率为：

$似然函数：L(\theta)=\prod\_{i=1}^np(x\_i;\theta)$

$极大似然原理： L(\hat{\theta}(x\_1,\cdots,x\_n))=\max\_{\theta \in \Theta}L(\theta)$

$\hat{\theta}(x\_1,\cdots,x\_n)$ 称为 $\theta$ 的极大似然估计值，相应统计量 $\hat{\theta}(X\_1,\cdots,X\_n)$ 称为 $\theta$ 的极大似然估计量(MLE)。

连续型变量

设连续型总体 $X$ 概率密度 $f(x;\theta),\theta\in \Theta,\theta$ 未知。 $X\_1,\cdots,X\_n$ 为样本，其样本在观测值 $(x\_1,\cdots,x\_n)$ 领域发生的概率为

$\prod\_{i=1}^nP(x\_i<X\_i<x\_i+\Delta x\_i)\approx\prod\_{i=1}^nf(x\_i,\theta)$ ,其中 $\Delta x\_i$ 与参数 $\theta$ 无关，因此:

$似然函数：L(\theta)=\prod\_{i=1}^nf(x\_i;\theta)$

$极大似然原理： L(\hat{\theta}(x\_1,\cdots,x\_n))=\max\_{\theta \in \Theta}L(\theta)$

概率论中独立同分布

**独立：**就是每次抽样之间是没有关系的,不会相互影响。就像我抛色子每次抛到几就是几这就是独立的。但若我要两次抛的和大于8,其余的不算,那么第一次抛和第二次抛就不独立了,因为第二次抛的时候结果是和第一次相关的。

**同分布：**就是每次抽样,样本都服从同样的一个分布。抛色子每次得到任意点数的概率都是1/6,这就是同分布的，但若我第一次抛一个六面的色子,第二次抛一个正12面体的色子,就不再是同分布了。

**独立同分布：**就是每次抽样之间独立而且同分布的意思。同分布是指服从同一分布函数。