算法数学基础-统计学最基础之均值、方差、协方差、矩

我们天天都可以接触很多随机现象,比如每天的天气不一样气温是我们最直接的感受,我们很难预测明天的精确问题,但是这些随机现象又体现出了一定的规律性 。比如上海7月份平均35度左右,冬天的平均温度在5度左右 。所以35、5这些数字体现了某种稳定性 。所以除了前面几章中讲到的分布律和概率密度函数可以表征随机变量外,还可以用一组数字来表达随机变量的一般特性 。这就是我们今天要讲到的随机变量的数字特征 。通过对数字特征的研究 , 我们可以更好的发现随机变量的潜在特点 。
1、数学期望:这个定义太过专业,我们将其理解为平均值就好了 , 不管是算术平均和加权平均 。它体现的是数据的基本面(炒股专用名词) , 信号里面的低频信息 。比如刚才举得例子,他能说明很多问题,比如夏天的平均温度一定比冬天高,比如平均分数高的班级的同学学习状态要比分数低的班级好等等 。数学期望的定义式为E(X)=x*f(x)dx的积分 。x为取值matlab语言常用算法程序集 , f(x)为取值的概率 。如我们要设定一个两个产品的投资组合,一个产品收益1000元,风险为10%,另一个产品1000元,风险为50%,总的期望收益就是这个投资组合的数学期望Z=1000*0.9+10000*0.5 。所以很多投资组合的选择,就是在选择每个产品投入的额度试图使收益最大!是不是很有用啊,学好概率论赚钱更容易 。但难的地方是如何可靠的风险评估,f(x)需要专业的知识才能,这个就不是本讲讨论的内容了 。(当然可以推广到随机变量函数的数学期望,大家用到的时候去查公式就好了)
2、方差:这是另外一个研究随机现象的重要的数字特征,它表征了数据与均值的偏离程度 。方差越大 , 表明数据越无序 。例如,公司生产两批尺子,我们标准是1米 , 经过测试其中一批的方差比另一批大就说明了方差大的那组的质量控制没有做好 。数学定义总是严谨的,它的定义形式为E{|(X-E(X)|},但带了绝对值数学上很不好运算 , 所以就改成了E{(X-E(X)(X-E(X)},效果是一样的 。上面例子不太严谨但是可以说明问题,严谨的说法是方差体现了其与均值的偏离度 。方差通常用D来表示D(X)=E{(X-E(X)(X-E(X)},开根号取正后变为标准差 。方差有很多性质:常数的方差为零、随机变量乘以常数方差等于常数平方乘以方差、和的方差等于方差的和加上协方差(协方差的概念后面讲),如果变量相互独立则为方差的和、方差为零的充分必要条件是X为常数 。这些性质简单推导即可得,拿来用就好了 。重要的引出了协方差的概念 。
3、切比雪夫不等式:意思就是随机变量如果存在均值和方差 , 则随机变量偏离均值的范围是有界的matlab语言常用算法程序集,即偏离均值的距离越远可能性就越小 。这个不等式很重要,在于在不知道随机变量的概率密度函数的情况下,知道一个随机变量的均值和方差的条件下,我可以估计出随机变量大于某个区间的上界,回答某种情况出现的概率最高不会超过多少的问题 。在大数定理、中心极限定理的证明中都会用到 。大家可以先记住这个结论 。
4、协方差:对于二维随机变量就出现了协方差的概念 。定义是从方差公式中来的,两个随机变量和的方差等于随机变量的方差之和再加上协方差 。所以这个协方差体现了两个随机变量的关系,如果两个随机变量是相互独立的,这个协方差就为零 。所以我们要衡量两个随机变量是不是独立,看他们协方差就好了,很多论文里面出现的复杂的协方差矩阵本质上就是在讨论多维变量之间的关系 。
5、相关系数:协方差除以相应变量的标准差被定义为相关系数 。相关系数有两条重要的性质,一是绝对值小于等于1,而等于1的充分必要条件是存在a,b,使得P(Y=a+bX)=1成立 。也就是说,如果Y能被X线性表示,Y与X相关性系数为1 。同样的如果Y不能被X线性表示,相关系数为0 , 那么在0-1之间呢就是部分相关 。所以相关系数变成了判断两个随机变量相关性的重要特征 。这里举个例子,对于二维正态分布的变态公式,我们在理解了上述概念后看上去就很美妙了,他们能够被随机变量的均值、方差和相关系数所确定 。
图1 二维正态分布概率密度函数
6、矩:可以理解为随机变量X的k次方的数学期望(原点矩);X-E(X)的k次方的数学期望叫中心矩;X的k次方乘以Y的l次方的数学期望叫做X和Y的k+l阶混合矩 。所以数学期望是X的一阶原点矩,X的方差是X的二阶中心矩,X和Y的协方差是XY的二阶混合中心距 。矩的概念在统计中有用,做参数的矩估计 , 所以这里只要知道定义和概念就好了 。
7、协方差矩阵:n维随机变量的分布是不太知道的,或者是太复杂,以至于在数学上不易处理 。因此在实际应用中,协方差矩阵就非常重要了 。协方差矩阵式是由随机变量的二阶中心矩构成的对称矩阵 。比如满足二维正态分布的随机变量除了可以用均值、方差和相关系数来表达,还可以用协方差写成矩阵形式 , 方便用线性代数的库进行高维计算 。
图2 参考教材
【算法数学基础-统计学最基础之均值、方差、协方差、矩】本文到此结束 , 希望对大家有所帮助 。