2011年2月26日土曜日

シンプソンのパラドクス

「バロックの森」を寝床で聴いて、7 時過ぎに起床。 ベーコンエッグの他、いつもの朝食。 朝風呂に入って、午前中は読書などでのんびり。 昼食は、目刺し、葱入りだし巻き、大根と人参のなます、 菠薐草と油揚げのお味噌汁と御飯。 午後はホットカーペットで猫と昼寝したり、 「ヤバい統計学」(K.ファング著/矢羽野薫訳/阪急コミュニケーションズ) を読んだり。読了。面白かったし、勉強にもなった。 夕食は、シンガポール土産にもらった謎のスパイスパックを使って、 鶏手羽肉と人参を土鍋で煮る。 他に冷奴、菠薐草のおひたし、御飯。 冷や酒を五勺ほど。

「ヤバい統計学」にも出ていたが、 「シンプソンのパラドクス」と呼ばれる現象は不思議だ。 数学的には何の問題もないのだが、どうしてそれが不思議に思えるのかが不思議。 統計学の教科書には大抵出ているので、 私もずっと以前から知ってはいるが、いまだに不思議で、 この間違いをうっかりおかしそうだと思う。

倉庫にフランスワインとドイツワインが沢山あるとしよう。 フランス産とドイツ産のどちらの平均価格が高いか調べたい。 とりあえず、赤ワインと白ワインで別々に数えることにした。 すると、赤についても白についても、 ドイツ産の方が平均価格が高かった。 ならば当然、赤と白を合わせた全体でもドイツ産の方が平均価格が高い、と思う。 しかし実は、そうとは限らない。 全体では逆に、フランス産の方が平均価格が高いこともありうるのだ。 これがシンプソンのパラドクスの一例である。 つまり、母集団を分割した層別の統計で成立することも、 全体で成立しているとは限らない。 例えば上の例で、フランス産はほとんどが赤ワイン、 ドイツ産はほとんどが白で、 赤が高価なものばかり、 白は安物ばかりだったとすると、 赤と白のそれぞれでドイツ産の方が平均価格が高くても、 全体ではフランス産の方が平均価格が高くなるだろう。 なぜなら、フランス産の方はほとんどが高価な赤ワインばかりなのだから。 よく考えてみると当たり前なのだが、どうも不思議。