发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计
1. 累积分布函数(CDF – 或直接就叫 distribution function)
CDF其定义为
FX(x)=P(X≤x)
正如统计学完全教程里说的,这个CDF函数是很有迷惑性的,有必要仔细理解它。我以前每次看这个表达式都是一闪而过,没有好好理解,而它的真正的意义应该是表示随机变量小于或等于其某一个取值x的概率。设一个例子,抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么P(X=0)=P(X=2)=1/4,P(X=1)=1/2,所以这个函数的曲线如下图:
对于这个图,要想清楚清楚如下两个问题:
1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到FX上,因此在X=x处有一个值的跃升。如X=1时,P(X=1)已经是1/2了
2)为什么FX(1.4)=0.75? 要注意P(1≤X<2)=1/2(虽然其实X只能取整数值),但是FX是值x之前所有概率的累加,所以FX(1.4)可不是1/2,而是3/4 !!
因此F函数始终是非降的,右连续的,且limx→∞F(x)=1
2. 概率密度函数(PDF – )
对于离散随机变量的PDF为:
fX(x)=P(X=x)
对于连续随机变量,若存在一个函数fX对所有x均满足fX(x)≥0,∫bafX(x)dx=1,并且有
P(a<X<b)=∫bafX(x)dx
则fX就是FX(x)的PDF,并且FX(x)=∫x−∞fX(t)dt, fX(x)=ddxFX(x)
表面看起来这个定义简单,但是要深入理解这些式子的含义,这个定义对后面整个机器学习的内容都是最基础最重要的。
其实后面所谓的 density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。
最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}
稍微复杂点的PDF就是univariate Gaussian啦,其实也不复杂,高中就见过
3. 伯努利、二项分布、多项分布
伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为f(x)=px(1−p)1−x,随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而这里对于伯努利分布,已经天然归一化了,因此归一化参数就是1。
很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。
二项分布的取值X一般是出现正面的次数,其PDF为:
f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1−p)n−x
Cxn就是二项分布pdf的归一化参数。如果是beta分布,把Cxn换成beta函数分之一即可,这样可以从整数情况推广为实数情况。所以beta分布是二项分布的实数推广!
多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。
这时参数p变成了一个向量p⃗ =(p1,…,pk)表示每一个取值被选中的概率,那么X~Multinomial(n,p)的PDF为:
f(x)=P(x1, …, xk|n,p⃗ )=(nx1, …, xk)px11…pxkk=n!∏ki=1xi!∏pxix