趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #19

ふたたび「意味がない」状況とは

では、「意味がない」という状況について、分散分析が使えそうなデータを使って考えていきましょう。
注:話が難しくなりすぎないように、2つの平均値を比較する、という状況で考えます。通常、2つの平均値の差を検討する場合には、分散分析ではなくt検定を用いますが、分散分析でも、検定結果じたいは同じになります。このことについては、どこかのタイミングで改めて書くかもしれません。
では、次の設定で考えていきます。

放送大学の学習センターA、Bで同日に開講された面接授業に参加していた学生、各10人(合計20人)に、今学期には何単位分の授業を受講しているかをたずねたところ、次のようになりました(仮想データです)。

単位数 4 5 6 7 8 9 10
学生数 1 2 4 4 3 4 2

20人の学生の単位数の合計は146、平均は7.3単位でした。
試しに、学習センターAとBとで比べてみようと思い、学生を受講したセンター別に(10人ずつに)分けてみました。このとき、
学習センターAとBで分けてみたけど、分けて比較する意味なかったねと思えるような状況とは、どんな状況でしょうか。逆に、学習センターAとBで分けてみて正解だったね、分けて比較する意味あったねと思えるような状況とは、どんな状況でしょうか。考えてみてください。

  • 「分ける意味なかった」状況とは・・・
  • 「分ける意味あった」状況とは・・・


《 回答案作成タイム 》

クロス表で考えたことを思い出そう

前回、クロス表をみながら、同じようなことを考えました。そのとき、「分ける意味がない」状況とは、分けたときと分けないときとで、「しょうゆ味」と「とんこつ味」を選んだ人の比が変わらない状況でした。
同様に考えれば、受講単位数も次のように考えられそうです。つまり、学習センターAで受講した学生(以下、学生A群と書きます)と学習センターBで受講した学生(学生B群と書きます)とで分けてみたけれど、どちらも受講単位数の平均は全く同じだった、という状況です。つまり、

  • 学生A群・・・受講単位数の平均 7.3単位
  • 学生B群・・・受講単位数の平均 7.3単位

なんだ、全く同じじゃないか、ということになれば、学習センターAとBとで分けて比較する意味はありませんね。では、「意味のある」状況はどんな状況でしょうか。
平均が同じでもなお、分けてみて意味がある状況というのは、実は存在します。が、ここではスルーします。いずれ機会があったら書きます。

「意味ありそう」な状況はひとつに決められない

クロス表のときに、「しょうゆ味」を選んだ人は全員地域A、みたいな極端な状況について考えました。たしかに地域で分ける意味はあるでしょうが、あまり現実的な状況ではありませんでしたね。
同じように、学生A群は平均13.6単位で、学生B群は平均1単位かもしれない!(これでも20人の平均は7.3単位になります)というのは、あまりにも非現実的ですよね。ということで、たとえばこんな状況はあり得そうです。

  1. 受講単位数平均:学生A群=7.8単位、学生B群=6.8単位(その差1単位)
  2. 受講単位数平均:学生A群=8.3単位、学生B群=6.3単位(その差2単位)
  3. 受講単位数平均:学生A群=8.8単位、学生B群=5.8単位(その差3単位)

まだまだいくらでも考えられますが、これくらいにしましょう。どれくらい差があれば、「学生をA群とB群に分けた意味ありそう」と考えられるでしょう。「その差2単位」なら意味ありでしょうか。もしそうだとして、「その差2.1単位」なら? 「その差2.2単位」なら? と考えはじめると、きりがないですね。

いったん「まったく意味がない」と仮定する

そこで、前回も書いたように、いったん「全く意味がない」と仮定します。B群とB群に分けて意味があるのであれば、全く意味がないと仮定した状況では、本来の状況と何かが異なってくるはずです。具体的には、次のように考えます。

  1. 学生をA群とB群に分ける意味は全くない、と仮定する。つまり、受講単位数の平均はどちらも同じである。このときの分散を計算する。
  2. 学生をA群とB群に分けて、それぞれの平均値を計算し、それぞれの群の分散を計算する。
  3. (2)で計算した分散は、(1)で計算した分散よりも小さいはずです。では、2つの群を合わせてどれくらい小さくなったのかを、パーセントで表してみる。

手順が少々複雑ですね。次回から、具体的な数値を使って、それぞれの計算が何を意味しているかを見ていきましょう。といっても、学生A群と学生B群の、それぞれのデータがないと計算できませんね。下に個人のデータ(もちろん仮想データ)示しておきますので、自分でとりあえず計算してみたい、という方は、やってみてください。