如何通俗地解释协方差

简单的说,协方差就是用来描述随机变量的相关性

1 相关性

随机变量的相关性分为三种

  • 增大时,也增大;或者减小时,也减小,同向变化,此时称正相关,协方差大于零。
  • 增大时,减小;或者减小时,也增大,反向变化,此时称负相关,协方差小于零。
  • 增大时,可能增大,可能减小;当减小时,也可能增大,可能减小;或者变化时,没有变化;变化时,没有变化。此时称不相关,协方差等于零。

也就是说,我们可以通过协方差描述随机变量的相关性

那协方差的数学表达式该是什么样呢,下面,通过一个例子来简单分析一下

2 基本思想

我们来考察一下身高与体重的相关性,为此采样了以下样本

下面以身高为横坐标,体重为纵坐标建立坐标系,然后将第一、二两个样本表示在坐标系中。

很显然,对于第一个样本点而言,第二个样本点横坐标增加了,纵坐标也增加了。此时,身高与体重正相关,我们用这两个点构成的一个红色矩形来表示。

然后将第三个样本点表示在坐标系中。相对于第一个点,第三个点的横坐标增加了,纵坐标也增加了,此时,身高与体重正相关,我们也用他俩构成的一个红色矩形来表示。

相对于第二个点,第三个点的横坐标增加了,纵坐标却减少了,此时,身高与体重负相关,我们就用它俩构成的一个蓝色矩形来表示。

最后,再将第四个点表示在坐标系中,用同样的方法,与前面的点生成四个矩形。

在这幅图中,红色代表正相关,蓝色代表负相关,显然,红色比蓝色多,因此整体上,身高体重是正相关的。

3 改进

这个方法虽然直观,但比较麻烦。每个点都需要和其他点比较一次,比如这里,再增加一个五号样本,它就需要和前面四个点都比较一次,再生成四个新的矩形。

既然要和所有点都比较,那么和均值比较,效果是一样的。与均值比较后,结果仍然是红色占多数,说明身高、体重总体是正相关的

如果把坐标原点移到均值的位置,我们还能很容易的知道,一三象限是正相关的,二四象限是负相关的。

下面我们用红色区域的面积减去蓝色区域的面积,通过其结果来判断相关性

4 计算

将第个样本点用表示,均值用表示,则由它们构成的红色区域的面积为,比如下面两个点构成的红色区域面积为

而由它们构成的蓝色区域面积的相反数, 比如下面两个点构成的蓝色区域面积的相反数为

则红色区域的面积减去蓝色区域的面积可以表示为

通过其结果,就能判断相关性

虽然通过这个式子,我们可以判断相关性了,但它还不是协方差,因为它还有点小问题。

5 加权

假如,我再加入两个样本点,因为此时均值并没有发生变化,所以坐标原点还是这个位置。

然后将新加入的两个点表示在坐标系中,可以看到它们分别在二,四象限,是负相关的。

这时候,蓝色区域大于红色区域,按照算法,身高、体重变成了负相关。身高、体重呈负相关,明显与我们的直觉不符,这是因为我们少考虑了概率

加入概率因素,求得的平均值,我们称为加权平均。将原点移动到加权平均的位置

对每一个区域乘以其相应的概率,可以看到,此时红色区域大于蓝色区域,说明身高体重是正相关的。

将则代数式中的均值就被加权平均取代,再对每一项乘以其相应的概率

通过这个式子,我们就可以判断出随机变量的相关性了。将其写为期望形式,这就是协方差

关注马同学
马同学高等数学
微信公众号:matongxue314