Jun 15 2009
正态分布的推导
关于正态分布的来历,找到几篇出处:
http://hi.baidu.com/hinus/blog/item/f7b21a7afeb51dee2e73b3cb.html
http://zxw.idm.cn/zcl/part3/C18a.htm
正态分布广泛适合观测误差等很多种场合,有一种观点是自然现象似乎都应当符合正态分布。正态分布可以从很多种假设出发推导出来,其中用最大信息熵原理配合标准方差为常数的约束条件推导出正态分布公式的思路比较简单。
一个连续变量的概率密度分布函数是f(x),那么这个函数的积分应当等于1,
(1)
如果该随机变量的标准方差为
(2)
如果一个随机变量仅仅受上面的条件约束,在这些约束下随机性最大,也就是变量对应的复杂程度或者说信息熵最大,即∫ -f(x) ln f(x) dx 应当最大。
利用拉哥朗日方法构造一个新函数F
F = ∫-f(x) ln f(x) dx + C1[∫f(x)dx-1] + C2[∫(x-a)2f(x)dx-σ2]
以上积分应当遍及变量x的一切可能值(从负无穷大积分到正无穷大)。复杂程度最大就是要求函数F对f的变分为零,有

我们得到
-ln f(x)-1+ C1+ C2(x-a)2=0
f(x)=exp(-1+ C1)exp[C2(x-a)2] (3)
利用关系(1)、(2)可以把(3)中的待定常数C1、 C2确定出来。借助定积分表,得到的分布函数就是正态分布公式
(4)
这样最大信息熵原理和标准方差为常数的限制就得到了正态分布函数公式(4)。换句话说对于确定的标准差σ2,随机变量可以有很多种分布函数,但是复杂程度最大(信息熵最大)的分布函数只能是正态分布。
Soar