シンプソンのパラドックス

提供: Yourpedia
移動: 案内検索

シンプソンのパラドックス1951年にE.H.シンプソンによって記述された統計学的パラドックスである。

母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。

つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。

シンプソンのパラドックスの例

例:A君とB君が1回目と2回目で合わせて110問を解くというテストを受けた。最初のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。次のテストでは、A君は10問中1問、B君は100問中30問が正解だった。

この例について考えてみる。話を整理するためにいくつかの記号を導入する。

  • 最初のテストでは、A君は解答した問題の60%(SA(1) = 60%)、B君は90%(= SB(1) = 90%)が正解であった。つまりB君の方が正解率が高かった。
  • 同様に、次のテストでは、A君は10%(SA(2) = 10%)、B君は30%(= SB(2) = 30%)の正解率であった。どちらのテストもB君の方が正解率が高かった。
  • しかし、2つのテストを合わせてみると、A君とB君は2人とも110の問題を解いていて、そのうちA君は61問(SA = 61/110)、B君は39問(SB = 39/110)が正解であった。
  • つまり、SB < SA となり、B君はどちらのテストでもA君よりも正解率が高かったのにもかかわらず、A君の方が正解率が高いという結果になった。

このパラドックスでは、計算の方法が考慮されていない。もし、SB(1) > SA(1) かつ SB(2) > SA(2)であれば、私たちは SBSAよりも大きいに違いない、と思いこみがちである。 しかし、各々の総得点を計算する際に異なった加重を与えてみるとどうなるだろうか。A君の最初のテストの加重は100/110でありB君では10/110である。2回目のテストの加重は各々、A君 10/110、B君 100/110となる。

SA = 100/110 SA(1) + 10/110 SA(2).

SB = 10/110 SB(1) + 100/110 SB(2).

加重を与えることによってAの総得点率は約60%、Bの総得点率は約30%と計算できる。


このように、計算方法によりパラドックスを見抜くことが出来る。しかし、依然として個人の成績と全体の成績の間には矛盾が残る。

A君とB君のどちらが上なのだろうか?

総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。

『A君とB君は病院で治療を行っている。中等症と重症の2群の患者に対する治療成績を2回テストした。結果は先ほどと同じ数値で考える。B君は両方の群でよりよい治療成績であったが、全体の治療成績は悪かった。その理由はB君の患者はほとんど重症であり(100/110)、A君の患者は殆どが軽症であったためである。A君の治療が良かったという結論は論理的に誤っている。』

上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。

統計学者にとっては1世紀以上前からこの現象は既知であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。