2010年12月16日木曜日

IT企業の統計屋

8 時頃起床。いつもの朝食のあと、お弁当を詰めて出勤。 午前、午後とお仕事。昼食は持参のお弁当。 柳葉魚、豚肉の大蒜生姜炒め、高野豆腐、牛蒡と人参のきんぴら、 大根と人参の漬物、 ゆずポン酢を作ったときの出がらしの鰹節と昆布で猫まんま。 17 時くらいに退社。 昨日と変わって、今日はまたオフィスは活気がある、というか、賑やかだった。 外はかなり寒い。いよいよ冬本番だ。 帰宅してお風呂に入り、 夕食は鶏すき鍋の第二回。ヱビスビール。今日は、鍋の後を雑炊にした。 甘辛系の鍋のあとの雑炊もまたよし…。 明日は会社の公式忘年会。 多分、出席すると思うので、更新はかなり遅くなります。

一応は専門家でなくもない、ということで、時に社内の統計屋さんの役割をする。 そこで思うことなのだが、普通に統計学の勉強をして想像するものと、 IT 企業内での統計の応用はかなり違う。例えば、 通常の統計学では、 大きな母集団の性質を推し量るために少量のサンプルをとる、 という問題をよく扱う。半年の講義が全部その問題に費されることもある。 しかし、全てのデータを正しく取ることができて、 全てのデータを瞬時に処理できる環境では、 そのような問題意識にはメタファーとしての意味しかない。 統計学を利用した選挙速報だって、 投票用紙をいちいち開票しているから必要なのであって、 もしインタネット選挙だったら、一瞬で全ての票を正確に数えられてしまう。 膨大なデータを、全て、正確に、コストほぼゼロで集計できてしまうとき、 推定すべきもの、検定すべきものは何なのか? そこで重要なことは、 データ全体に対して何をどう集計し、何をどう表現し、何をどう見せるか、 言わゆる「記述統計学」の視点だ。 記述統計学の多くの面は「アート」なので、 数学的議論が主の教育現場で力点が置かれないのはやむを得ないが、 ちょっと弱過ぎる気がする。

また、応用の現場ではこの「記述」の前段階の「データの訊問」 が大変に重要だが、これも「アート」なので教程ではあまり扱われない (ラオの「統計学とは何か」では、訊問の重要性が強調されていたが)。 もちろん、通常の統計的推測や検定の理論が現場では不用だ、 と言っているのではない。 それ以前のこと(特に記述統計)の重要性が非常に高くなっている、 そして、単純な問題がないと言うことは、 推定や検定の本当の問題の発見と解決がより微妙で深い問題になっている、 という二点を感じるのである。