简单的说,协方差
随机变量的相关性分为三种
也就是说,我们可以通过协方差描述随机变量的相关性
那协方差的数学表达式该是什么样呢,下面,通过一个例子来简单分析一下
我们来考察一下身高与体重的相关性,为此采样了以下样本
下面以身高为横坐标,体重为纵坐标建立坐标系,然后将第一、二两个样本表示在坐标系中。
很显然,对于第一个样本点而言,第二个样本点横坐标增加了,纵坐标也增加了。此时,身高与体重正相关,我们用这两个点构成的一个红色矩形来表示。
然后将第三个样本点表示在坐标系中。相对于第一个点,第三个点的横坐标增加了,纵坐标也增加了,此时,身高与体重正相关,我们也用他俩构成的一个红色矩形来表示。
相对于第二个点,第三个点的横坐标增加了,纵坐标却减少了,此时,身高与体重负相关,我们就用它俩构成的一个蓝色矩形来表示。
最后,再将第四个点表示在坐标系中,用同样的方法,与前面的点生成四个矩形。
在这幅图中,红色代表正相关,蓝色代表负相关,显然,红色比蓝色多,因此整体上,身高体重是正相关的。
这个方法虽然直观,但比较麻烦。每个点都需要和其他点比较一次,比如这里,再增加一个五号样本,它就需要和前面四个点都比较一次,再生成四个新的矩形。
既然要和所有点都比较,那么和均值比较,效果是一样的。与均值比较后,结果仍然是红色占多数,说明身高、体重总体是正相关的
如果把坐标原点移到均值的位置,我们还能很容易的知道,一三象限是正相关的,二四象限是负相关的。
下面我们用红色区域的面积减去蓝色区域的面积,通过其结果来判断相关性
将第
而由它们构成的蓝色区域面积的相反数为
则红色区域的面积减去蓝色区域的面积可以表示为
通过其结果,就能判断相关性
虽然通过这个式子,我们可以判断相关性了,但它还不是协方差,因为它还有点小问题。
假如,我再加入两个样本点,因为此时均值并没有发生变化,所以坐标原点还是这个位置。
然后将新加入的两个点表示在坐标系中,可以看到它们分别在二,四象限,是负相关的。
这时候,蓝色区域大于红色区域,按照算法,身高、体重变成了负相关。身高、体重呈负相关,明显与我们的直觉不符,这是因为我们少考虑了概率
加入概率因素,求得的平均值,我们称为加权平均。将原点移动到加权平均的位置
对每一个区域乘以其相应的概率,可以看到,此时红色区域大于蓝色区域,说明身高体重是正相关的。
将则代数式中的均值
通过这个式子,我们就可以判断出随机变量的相关性了。将其写为期望形式,这就是协方差