统计的艺术
作者:编辑部
2021-08-27
摘要:人类似乎非常需要以简单的因果关系,来解释发生的事情,人们甚至会找理由把不相关的事说成有关系的存在;但“相关”不表示有“因果”关系。

斯堪的纳维亚国家是流行病学家的梦想之地,那些国家的每个人都有个人身份号码,用于注册健康照护、教育、纳税等事务;因此研究工作者能以其他国家不可能做到的方式,把人们生活中所有这些不同的层面连结起来。

 高等教育与罹患脑瘤有关?

一项研究将超过400万的瑞典男性和女性,18年内的纳税和健康纪录连结起来,研究人员因此发现:社会经济地位较高的男性被诊断出罹患脑瘤的比率略高。这是那种有价值但相当平淡乏味的研究之一,通常不会吸引太大的注意,因此即使这项研究只涉及社会经济地位,而和教育无关,一位大学的公关人员却认为新闻稿如果这么写会更有趣:“高等教育和罹患脑瘤风险增加有关。”

而当这则新闻要传达给一般大众时,某家报纸的助理编辑下了一个经典的标题:“为什么上大学会提高罹患脑瘤的风险?”对于投入时间攻读更高学历的人来说,这个报纸标题可能令人大惊失色。但是我们应该担心吗?

这项大型研究是根据完全合格的母体(而非样本)登录资料库,因此我们可以有信心地作成结论说:受过更高程度教育的人,确实发现略多的人罹患脑瘤。但那是因为在图书馆汗流浃背读书,使得大脑过热,结果发生某种奇怪的细胞突变吗?尽管报纸标题那么写,但我对它感到怀疑。而论文的作者也表示怀疑,他们补充说:“癌症登记的完整性和检测偏差,或许可以解释这件事。”换句话说,受过较高等教育的富裕人士,比较有可能被诊断和登记罹患肿瘤,这是流行病学中称为确定偏差的一个例子。

从1990年代英国各医院执行儿童心脏外科的手术量相对于存活率图表,可以发现规模较大的医院和较低的死亡率有相关性。但我们不能作成结论说:规模较大的医院造成较低的死亡率。

这种审慎的态度由来已久。1900年,《自然》期刊讨论皮尔逊刚发展出来的相关系数时,一位评论者警告说:“相关不表示有因果关系。”随后的一百年,有人只是观察到两件事倾向于一起变化,就宣称有某个发现时,统计学家便一而再、再而三端出这句话。甚至有个网站会自动生成愚蠢的相关性,例如2000年到2009年,美国每年的平均每人莫札瑞拉(mozzarella)起司消费量,和那些年头中每年攻得土木工程博士学位的人数之间,具有可喜的0.96相关性。

 吸烟者为何没有罹患肺癌?

人类似乎非常需要以简单的因果关系,来解释发生的事情——我敢说我们都能编造一个好故事,说所有那些新手的工程师为什么大吃披萨等等。甚至有个词,叫作幻想性错觉,用来指人们倾向于寻找理由,说其实不相干的事件之间有关系存在,最极端的情况是把单纯的不幸或坏运气,归咎于他人的恶意或甚至妖术。

不幸的是,或者幸运的是,这个世界比简单的妖术稍微复杂一点。第一个复杂性在于试图弄清我们所谓的“因”是什么。

当我们考虑到现实生活中每一件有趣的事,不可避免都有它的变异性时,这会变得更加棘手。例如,医学界现在同意吸烟会导致罹患肺癌,不过医师可是花了数十年的光阴,才得出这样的结论。为什么要花这么长的时间?因为吸烟的人大多没有罹患肺癌,有些不吸烟的人却罹患肺癌。

我们只能说,吸烟比不吸烟更容易罹患肺癌,这是为什么立法限制吸烟需要花那么长时间的原因之一。

所以我们对于因果关系的“统计”观念,并不是那么严格地说一不二。当我们说X导致Y,并不表示每当X发生,Y也会发生;或者,只有在X发生时,Y才会发生。我们只是说,如果我们干预,强迫X发生,那么Y倾向于更常发生。因此我们永远能说,在某个特定情况下,X会导致Y,只能说X提高了Y发生的次数百分比。

如果我们想知道是什么导致什么,那么我们必须做的事,有两个至关重要的后果。首先,为了满怀信心推断因果关系,理想上我们需要进行干预和执行实验。第二,由于这是个统计或随机的世界,我们需要多次干预,才能收集证据。


热门文章