(タイトルは意識高い人のアンテナにひっかかるかなと思ってイキってみました。)
とうとう新学期が始まってしまいました。今学期は、単位を取るのが5つ(うち1つは集中講義)、聴講しようと今のとこ考えてるのが6つ(いくつ減るかわからない)、って感じです。
そんで本日水曜日は、趣味として勉強していこうと考えている統計*1と、修論で少しかじるかもなと思ってる文化人類学的な授業を取ってます。
文化人類学の授業は、先生が変で面白い。同じ所ぐるぐる説明してる感じで話が長いけど、レジュメはかっちり、みたいな。
そして統計の方は、題目が「頻度論的統計とベイズ統計」ということで、現代の統計の二大潮流である両者を比較しつつ勉強していこう、というものです。周りは教育心理学コースできっちり統計やってきました/やってますみたいな人ばかりで焦る。『統計学が最強の学問である』読んできました、とか言えない感じ。や、あの本は本当に面白いと思うけど。
いよいよ話が長くなってきたので、タイトルの表を載せます。
頻度論的統計 | ベイズ統計 | |
---|---|---|
母数 | 定数 | 確率変数 |
データ | 確率変数 | 定数 |
母数が定数かどうかってのは聞いたことあったんだけど、データも定数かどうかで違いがあるんだー!と。(不勉強)
ここで終わるのもさすがにアレなので、表に出てきた単語の解説をば。もちろん詳しくは自分でおググりくださいね。
●頻度論的統計(frequentist):いわゆる普通の統計。統計の授業で特に断りがなければこっち。「古典的」とも。ただしこうした呼び名はあくまでベイジアン(ベイズ統計派の人たち)からみたもので、本人たちはあくまで自分たちが「統計」で、ベイズ統計が「"ベイズ"統計」なんだ、とのこと。
また、「頻度」という言葉がなぜついているのかに関しては、定数・確率変数のところに譲ります。
●ベイズ統計(Bayesian):ベイズさん(Thomas Bayes(1702-1761))が考え出したベイズの定理をもとに、Price, Laplace, Savageなどによって発展した統計学。MCMC法という積分法(って言うの?)および計算機の高速化・普及によって、近年普及しつつあるとのこと。ちなみに授業の先生はベイジアン。ベイジアンには変な人が多いらしい。学会で「頻度論を呪う歌」とか歌うらしいw
The Fifth Moment -- I Think I'm A Bayesian - YouTube
(これはそういう歌じゃなさそうだけど、「呪う歌」が見つからなかったので。笑)
●母数(parameter):データを生み出しているとされる確率分布を規定する少数の数値。たとえば正規分布なら、平均μと分散σ^2が決まれば分布は一意に定まる*2。
●データ(data):変数の、各個体についての観測値の集合。一般的に、行方向に変数、列方向に各個体を並べた表の形式で与えられる。
●定数:決まった数。
●確率変数:ある確率にしたがって変動する値。
さて、以上を踏まえてもう一度表をみてみましょう。どういうことなのでしょうか(ちょっと気取って教科書っぽい物言い)。
頻度論的統計学の立場に立てば、母数は決まっている。例えば、日本人の平均身長(=母数)は、ある決まった1つの数(=定数)である、と(これはわりと普通の想定に思える)。そして、日本人全員の身長を測るわけにもいかないので、日本人全員から何人かランダムサンプリングをして、データを取る。この時、仮に同じ条件でデータを取ったら、そこから得られる数値は変動するだろう。この「同じ条件で試行をくり返す」という仮定・想定がfrequencyということらしい。そういう意味で、手元にあるデータは、ある確率にしたがって変化するもの(=確率変数)のうち、今回の試行でたまたま得られたものと考える。これが頻度論的統計。
続いてベイズ統計は、「手元にあるデータは、もう変動しようがないから定数」と考える(言われてみるとこれもわりと普通の想定に思える)。その上で、母数の方が確率的に動いている(=確率変数)と考える。
ということでした!*3
ここで思い出すのは、頻度論的統計における検定で、95%信頼区間を出したとき、「そこに95%の確率で母数が含まれている」と考えるのはナンセンスだ、という話。そういった問い方自体がベイズ的だ(というか、母数を確率的に変動しているものとみている)、と。
正確には「それと同じやり方で何度も何度も試行を行なってその都度95%信頼区間を出したとしたら、そのうち95%は母数を含む信頼区間である」というものらしい。ややこしい。
ここまで書いてみての疑問は、ベイジアンは目に見えてはっきり測定できるもの(の平均値)も「確率的に揺れている」と考えるのだろうか。
たとえば、「個人の英語力(およびその発現としてのテストの点数)」とか、「親の価値観と子どもの価値観の間の関連の強さ」とか、そういった目に見えないもの(個人の中にあるものや、個人間にあるもの)はユラユラしているようなイメージが合っていそうだけど、身長はかっちりしてるし、それが寄り集まった「(ある集団における)身長の平均値」もかっちりしてるんじゃないかなあ、と。
とにもかくにもベイズ統計に触れるのが初めてだけど今のところ楽しそうなので、なるべく時間作って予習復習して授業に臨みたいですね!