心理統計学概論「変数と統計量」
授業は先生からの講義→質問を授業後メールで送付→翌授業で解説、という流れを踏むんですが、今日はその質問の中に「変数と統計量の違いが今ひとつわからん」というのがありました。
自分のその時の理解は「変数は被験者それぞれから取った変動する値で、それを統計的にまとめたのが統計量」というものでしたが、もうちょっと話は複雑で面白かったのでメモ。
上記の理解は別に間違いというわけではなく、じゃあ何が不十分かと言えば様々な「段階」があるから、ということでした。
まず第一段階。これは「記述統計の世界」と言ってもいいように思えましたが、そこでは、
- 変数(variable):ひとりひとりについて収集するデータ
- 統計量(statistic):集団全体での平均・分散・相関など
とのこと。ふむふむ。最初の理解もこんな感じだ。
ではこの次の第二段階は何かと言えば、「推測統計の世界」。これはすなわち、目の前のデータの奥には、そのサンプリングがなされた「母集団(population)」があり、その母集団における統計量(これを母数(parameter)と言っていいのかな…??)を「推測」するのが推測統計。目の前のデータをまとめるのに注力する記述統計より高尚な響き…w
ここでは、第一段階においては「統計量」だった、「(サンプル)集団全体での平均等」が、「変数」として扱われます(そこから推測された「母数」を「統計量」とは言わないように思うけどどうなんだろ)。また、第一段階では「変数」として扱われたものも、実は「n=1の時の統計量」と捉え直すことができます。ふむふむ。すると、「変数」というのは実験・調査のデザイン上の用語で(「変数何にする?」とか「どの変数とどの変数の相関みる?」とか)、実際のデータを見る時は、全て統計量と考えた方が分かりやすいのかな。そうでもないか。
そして第三段階。フリーザでいうと、ひゃひゃひゃ!とか言いながらピッコロさんボコボコにするやつですね。
これは、「ベイズ統計の世界」とも言えるかもしれません。上に挙げた「母数」すら「変数」として見る世界です。そもそも母数がfixされているかrandomに動くのか、という問題があります。もちろん、厳密には母数は決まっているはずです。例えば、ある大昔の人の白骨が見つかったとして、その人が生まれた年というのは、例えばAD200年6月10日など、決まっているはず。
でもまー、誰もそんな細かく知りたくはないよね。笑 大体この年代に生まれた、と分かればいいわけです。その意味で、「母数はある幅の中をランダムに動く」という考え方は、非常に日常的な意味で考えやすい。この「母数はrandomで動く」という考え方が「ベイズ統計学」であり、逆に「母数はfixされてる」と考えるのが「頻度論的統計学」だそうです。
この頻度論的統計学においては、母数、さらには仮説は所与条件となります。そのため、「帰無仮説が正しい確率は〜」などという言い方は厳密ではないとされます。正しくは、「帰無仮説が正しいとした場合、このデータが得られる確率は〜」ということになります。むつかしい。
冬学期に「頻度論的統計とベイズ統計」というそのものずばりの授業があるので、今から楽しみに統計勉強しておきます。(1420字、20分)