辛普森悖论

辛普森悖论统计学中的一个悖论。它是以英国统计学家爱德华-H-辛普森命名的,他在1951年首次描述了这一现象。统计学家卡尔-皮尔逊在1899年描述了一个非常类似的效应。有时,它被称为尤勒-辛普森效应。当看群体的统计分数时,这些分数可能会发生变化,这取决于这些群体是被一个一个地看,还是被合并成一个更大的群体。这种情况经常发生在社会科学和医学统计中。如果频率数据被用来解释因果关系,它可能会使人们感到困惑。该悖论的其他名称包括反转悖论和合并悖论

例子。肾结石治疗

这是一个真实的例子,来自一项医学研究,比较了两种治疗肾结石的成功率。

该表显示了涉及小型和大型肾结石的治疗的成功率和治疗次数,其中治疗A包括所有开放式手术,治疗B是经皮肾镜取石术。

治疗A

治疗B

成功

失败

成功

失败

小石子

第1

第2

病人数

81

6

234

36

93%

7%

87%

13%

大石块

第3

第4

病人数

192

71

55

25

73%

27%

69%

31%

两者都是

第1+3

第2+4

病人数

273

77

289

61

78%

22%

83%

17%

矛盾的结论是,治疗A用于小结石时更有效,用于大结石时也更有效,但同时考虑两种大小时,治疗B却更有效。在这个例子中,人们不知道肾结石的大小会影响结果。这在统计学中被称为隐藏变量(或潜伏变量)。

哪种治疗方法被认为更好,是由两个比率(成功率/总数)之间的不平等决定的。两种比率之间的不平等发生逆转,造成辛普森悖论,这是因为两种效应同时发生。

  1. 在忽略了潜伏变量的情况下,这两组的规模是非常不同的。医生们倾向于给严重的病例(大结石)更好的治疗(A),而给较轻的病例(小结石)更差的治疗(B)。因此,总数是以第三组和第二组为主,而不是以第一组和第四组这两个小得多的组为主。
  2. 潜伏变量对比率的影响很大,也就是说,成功率受病例严重程度的影响比受治疗方法的选择影响更大。因此,使用治疗方法A的大结石患者组(第三组)比小结石患者组做得更差,即使后者使用的是较差的治疗方法B(第二组)。

AlegsaOnline.com - 2020 / 2023 - License CC3