2020年初,整个世界遭受了新冠病毒地袭击,直到今天人类还没有走出阴霾。抗疫前线的医学专家们日以继夜地工作,同时进行着多种药物的临床试验。那么怎么判断哪一种药物效果更好呢?这就要说到一百年前问世的方差分析。
罗纳德·艾尔默·费希尔爵士(英语:Sir Ronald Aylmer Fisher,1890-1962,),英国统计学家、演化生物学家与遗传学家。现代统计学与现代进化论的奠基者之一。安德斯·哈尔德称他是“一位几乎独自建立现代统计科学的天才”:
本文下面要讲到的方差分析、F分布,都是费希尔的贡献,这些统计方法可以说完全改变了人类进行科学研究的方式方法。
费希尔有着惊人的数学才能,他在1912年获得剑桥大学的数学学位的同时,还斩获了当年剑桥大学的“牧人”头衔,这需要通过一系列难度极高的口头和书面的数学考试,每年都只有一两位学生可以成为“牧人”,有的年份甚至无人可以荣膺。和黎曼类似,在他的一些重要论文,他认为其中很多数学结论非常显而易见,不屑于证明。后来由瑞典数学家哈拉尔德·克拉梅尔等数学家进行了梳理、补充和证明,才逐渐扩充成为了现代统计科学的重要组成部分。
1919年,罗森斯得农业实验站的主任约翰·拉塞尔爵士发出了邀请,希望费希尔来查看下该实验站历年收集的数据中到底藏有什么秘密(下图是罗森斯得农业实验站):
由于种种原因,费希尔的生活并不顺利,看在一年1000英镑的份上,费希尔带着他的三个孩子、老婆和小姨子,来到了这个伦敦以北的农业地区,蹬上靴子,穿过农田,取出巨大库房中、堆积如山的、积累了90年的数据,开始了他所谓的“耙粪堆”的工作。
罗森斯得农业实验站很重要的一个工作就是,搞清楚施用不同的混合肥料,马铃薯的产量是否会不同。费希尔的做法是在农田中种上马铃薯,不同部分施用不同的混合肥料(下面是一个示意图,在同一块农田的不同排施用不同的肥料,然后插上牌子进行区分):
然后在收获后对数据进行采样,看不同实验组的产量是否不同。
费希尔也知道,马铃薯不是什么工业产品,本身产量就会有波动,肯定不能说某个实验组产量多了
(1)概率。马铃薯的产量
根据该分布,产量在
而产量在
就此,费希尔设计了
(2)原因。马铃薯的产量
如果某个实验组平均产量
就此,费希尔设计了
综合上面两个问题,费希尔设计了一个假设检验(关于假设检验,可以参考这里):
从抽样到计算完成该假设检验,就称为
下面用具体的数据进行下实战讲解。假设有
根据上面表格,画出来的图像是这样的:
可以看出:
所以是很有把握认为这三组产量不同,并且是由于混合肥料导致的。当然上面是定性分析,下面看看如何定量分析。
首先需要知道发生了低概率事件,即是否有某组(在本例中是
忽略其中的常数(这些常数设置是一些数学原因,不影响本文的整体思路,感兴趣的可以看下教材和证明),可以看出,组间方差较大时说明发生了低概率事件。
将各个实验组的方差加起来就得到了组内方差(其中也多了些常数,暂时可以不用管):
其中
费希尔接着构造了
解读下:
可见统计量
可以证明,满足某些条件的情况下(比如总体和样本都是正态分布),统计量
此时,当
至此就完成了假设检验,也就是完成了方差分析:
之前介绍过t检验,它和方差分析的区别在于,t检验是判断两组数据是否不同,而方差分析可以判断三组或者更多组数据是否存在不同。
从本文介绍可知,方差分析只是知道了这三组是否有差异,具体是到是哪组有差异,还需要别的统计方法。比如对这三组两两进行t检验。
本文只是简单地介绍了方差分析的思想,很多数学细节没有深入,不过相信还是可以帮助同学们更快地学习相关知识。至于文章开头谈到的药物的临床试验,本质上和马铃薯的农业试验差不多,一样可以套用方差分析。