趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #18

分散分析は何を分析したいのか

分散分析の解明に先立って、いったい分散分析というのは何を分析しているのかについて、復習しておきましょう。すでに統計学の教科書で勉強された方はご存知でしょうが、

分散分析は、平均値の差が、統計的に有意であるかどうかを検討している

のでした。
え? 分散分析なんだから、分散を分析しているんじゃないの? という素朴な疑問を抱いたことがある方も多いかもしれません。私もそうでした。分散分析は、確かに分散を分析しているんです(さっきと言っていることが違うじゃないか!と言いたくなるかもしれませんが、ちょっと待って)。分散を分析することで、平均値の差が統計的に有意であるかどうかを検討しているのです。
・・・やっぱりモヤっとしますよね。何それ? という感じは確かにあります。ここのモヤっと感を、なんとかすっきり書き表したい、と思っていますが、さて、うまくいくでしょうか。

「統計的に有意」とは

分散分析について話す前に、統計的に「有意」というのはいったいどういうことなのかについて、少し話しておきたいと思います。「有意」とは、「意味が有る」と書きます。が、これをそのまま説明することはとても難しいので、統計学では(現在よく用いられている推測統計学のやり方では、と言った方がいいでしょうか)、「意味がないとはいい難い」ことを「有意」であるととらえています。ははは、余計に分かりにくいでしょ。でも、もう少しだけ辛抱してくださいね。

「意味がない」とは

では最初に、統計的に「意味がない」(より具体的には、2つの数値を比較する意味がない、など)という状況について、考えていきましょう。これには、クロス表を用いるのが簡単だと私は思っています。クロス表の分析に分散分析を使うわけではないので、ちょっと回り道をしている感じがするかもしれませんが、こっちのほうが「意味がない」という状況について説明しやすいので、少しの間、つきあってください。
次のような状況を考えましょう。

全国から学生が集まる、ある国立大学の学生が、こんな調査をしました。学生100人をランダムに選び、好きなラーメンの味を調査したところ、次のようになりました。(仮想データですよ)
しょうゆ味:60人、とんこつ味:40人

ところで、「とんこつ味といえばさあ、あの地域だよね」と思い当たる方もおられるかもしれませんね。この調査をした学生もそう考えたのでしょう。好きなラーメンの味と一緒に、出身地も調査していました。では、

回答者100人を、出身地Aと出身地Bに分けたとき、表がどうなっていれば、「ああ、地域別にわけた意味があったね」といえるでしょうか。
また、表がどうなっていれば、「なんだ、地域別に分けた意味なんかないじゃないか」ということになるでしょうか。表の中に、適当に数字を入れてみてください。

ただし、地域Aの学生、地域Bの学生はいずれも50人であったとします。

しょうゆ味 とんこつ味
地域A 50
地域B 50
60 40 100


《 回答案作成 タイム 》

4つの回答案

では、具体的に表を作って考えましょう。まず次の2つの表から。

①の表
この表は、明らかに、地域別に分けた意味がありませんね。なぜかというと、どちらの地域も、しょうゆ味を選んだ人と、とんこつ味を選んだ人の比が3:2で、まったく同じだからです。全く同じなのですから、比較したって「同じ!以上!」としか言えません。わざわざ地域別に分ける意味なんかないですね。(もちろんですが、なぜどこの地域でもしょうゆ味を選ぶ人が少し多いのか? という別の疑問について考えることは意味があるかもしれません。)
②の表
この表は、地域別に分けてみて正解!と、おそらく誰もが感じる表でしょう。何しろ、地域Aの学生は全員「しょうゆ味」を選んでいるし、「とんこつ味」を選んだ学生はみんな地域Bだし、もう、完全に地域差あり! 地域別に分けてよかった! 意味あり! という表です。地域Aの学生はなぜとんこつ味を選ばないのか? 地域Bの学生はなぜしょうゆ味よりとんこつ味を選ぶのか? という疑問について考えるのは(それなりに)楽しそうです。

といっても、現実には、①のように完全に「意味がないね」と言える状況でもなく、②のように極端に人数が偏っている状況もない、もっと中途半端で、「どっちかな~?」と悩んでしまう状況の方が多いはずです。ということで、別の表を考えましょう。

③の表
これはどうでしょう。①の表ととてもよく似ていますね。「地域A」の「しょうゆ味」が30から31に1人増えただけなんですが、これだけでは、地域に分けた意味があるぞ! とは主張しにくいですよね。
④の表
では、これはどうでしょう。「地域A」の「しょうゆ味」が35人になりました。地域Bの、しょうゆ味ととんこつ味が同じ人数になっていて、しょうゆ味:とんこつ味=1:1になっています。地域Aでは、しょうゆ味:とんこつ味=2.3:1なので、地域によってそれなりに大きな差があるように見えます。「地域で分けた意味あるんじゃね?」と思えますが、「やっぱり誤差の範囲なんじゃね?」と言われると、そうかもなあと思ったりします。みなさんはどうですか?

はっきり決められるのは「意味がない」状態

以上のことから考えられるのは、誰が見たって完全に「意味がない」という状態は、明確に定まるということです。①の表がそれです。③の表のように、ちょっとだけ偏りがあると、「意味があるっていえないよね」と同意が得られそうですが、④の表くらい偏ってくると、意見が分かれるでしょう。つまり、これくらい偏っていれば意味があることにしよう」という基準は、そう簡単には決められないのです。
だから、「意味がない」状態を決める。そして、その状態から、う~んと離れているとき(表の数がう~んと偏っているとき)には、「意味がないとは言い難いよね」ということにしよう。現在用いられている推測統計では、こういう考え方をするのです。そして、「う~んと離れている」かどうかの判断基準を提供してくれる道具が、統計的検定(帰無仮説検定)と呼ばれている方法です。分散分析も、カイ二乗検定も、こうした検定の方法の一つです。

ずいぶん長い話になりましたが、これはクロス表でのお話です。クロス表の検定にはカイ二乗検定を使います。じゃあ、分散分析を使う場面ではどう考えればいいんだ? という話を、次回はしていきます。

参考

ラーメンの味の好みに多少の地域性があることは、たとえば以下の記事に書かれています。ただし、調査の信頼性について、このブログでは肯定的にも否定的にも評価していません。あくまで一つの参考資料として掲載します。
news.yahoo.co.jp