趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #27

2次元表に整理するということ

2次元の表にデータを整理する、という学習は、小学校の算数ですでに指導されていることです。たとえばこんな感じの表示について勉強するようです。(出版されている小学生用のドリルを参考にして、著者が作成した表です)

これは4年生に出題されている表です。実際には一人ひとりに、「ハンカチ:もっている、ティッシュ:もっていない」というようにカードに書いてもらい、それを集計するという課題です。目の前にカードがあれば、同じ答えが書かれているカードを集めて枚数を数える、というのが間違いがないでしょう。そんなカードセットを一人一組用意するのは非現実的ですから、そういったカードがランダムに並べられている「絵」を見て学習します。カード(の絵)を1枚1枚チェックしながら(鉛筆で印をつけながら)、「正」の字を書いて集計する、ということをさせるわけですね。これ、苦手な子ども多いでしょうねえ。「先生、なんでグーグルフォーム使わないの?」って。
さて、本題はそこではありません。話を戻しましょう。

意味がない状況について

シグマくんのはなし #18」で、「意味がない」状況について話しました。そのときに示した図を再掲します。

この図の左側、①の表が、「意味がない」状況でした。なぜかというと、地域で分けてみても、地域で分けなくても、味の好みの割合が「しょうゆ:とんこつ=3:2」で、変わらないからです。地域で分けてみたってなにも変わらないのだから、わざわざそんなこと(=地域に分けてみること)しなくていい、そんなの意味がない、ということですね。
そのときには話題にしませんでしたが、このような「まったく意味がない」状況を示しているときの、それぞれのセルの値のことを、クロス表の「期待値」といいます。

「期待値」に何を期待するか

ところで、《期待値》という語を日常的な感覚で読むと、統計学でいうところの「期待値」と意味が違ってくるように思います。ちょっと辞書を引いてみましょう。以下、電子辞書版の広辞苑第六版です。

きたいち【期待値】〔数〕離散的確率変数のとる値に、対応する確率をそれぞれ掛けて加えた値。平均値。

ほーら、わかんないでしょ? これは、統計学で用いる「期待値」の意味と近いものです。(同じです、と言い切れないのは、離散的確率変数だけでなく、連続的確率変数についても「期待値」を考えるからです。)
じゃあ、「期待」はどうでしょう。こちらは三省堂新明解国語辞典第七版も併記しましょう。

きたい【期待】
将来その事が実現すればいいと、当てにして待ち設けること。(広辞苑
望ましい事態の実現、好機の到来を心から待つこと。(新明解)

このように、「期待」は、望ましいことや実現してほしいことを待っているときに使うのですね。ですが、統計学でいうところの「期待値」の「期待」には、そのような、「本当にならないかなあ~ワクワク❤」「絶対実現してほしいなあ~ドキドキ❤」みたいなポジティブな感情は、いっさいありません。
ですから、さきほどのラーメンの味の好みについても、「しょうゆ v.s. とんこつ、地域で分けてみたら、どんな風になるんだろうなあ、わくわくするなあ~」などという感情はこれっぽっちもなくて、「地域で二つに分けるんですね。はい、どちらも「÷2」しておきました」と、まあ、これ以上にないくらいに素っ気ないのです。これが「期待値」です。「関東はきっとしょうゆが多いと思うぞ」とか、「とんこつといえば九州だよね」とか、そういう結果を、研究者としては望んでいるかもしれません。でも、それを「期待値」に期待してはいけないのです。

「期待値」の計算方法

期待値の計算方法は、いくつか覚え方があるのですが、「どちらも「÷2」しておきました」という方法は、実は誤りを含んでいるので、それを修正していくことにしましょう。

「あ」の表は、上に示した①と同じです。ここで、しょうゆ味の60人を「÷2」して30人と30人に分けてあるのですが、なぜこれでいいかというと、地域Aと地域Bの人数の比が、「50人:50人=1:1」だからです。
「意味のない」状況を作るということは、1行目と2行目を比べても何も違いがない状況にすることですね。何も違いがないようにするためには、合計人数と同じ比にすればいいのです。この表ではたまたま「地域A:地域B=1:1」だったので(つまり合計の100人を2で割って50人と50人にしたのと同じことだったので)、「60を2で割って、30人と30人にした」というやり方でも正しい結果が得られていたんですね。
「い」の表は、「地域A:地域B=1:3」で、ずいぶん人数の偏りがあります。ですから、「しょうゆ味の60人」も、同じように「1:3」になるようにします。「とんこつ味の40人」も、やはり「1:3」になるように分けます。
期待値の計算方法はほかにもあります。お使いの教科書などを調べてみてください。
いの表は、1行目と2行目で人数が明らかに違うために、一見、偏りがあるように見えますが、相対度数を計算すると、確かに「意味のない」状況を示していることがわかります。やってみましょう。

行相対度数、列相対度数


「行相対度数」は、1行目のセルの値は1行目の行合計で割る、というやり方で計算します。図の「う」がその方法を図解しています。1行目の行合計は25なので、1行目はぜんぶ25で割ります(書いてありませんが、行合計も行合計で割ります。つまり、「25÷25」をします)。2行目はぜんぶ75で割るのですね。やはり書いてありませんが、「計」の行も同様に割り算します。結果は、「う-2」のようになります。どの行も同じ数が並んでいます。これが「期待値」の特徴です。
「列相対度数」は、1列目のセルの値は1列目の列合計で割る、というやり方で計算します。図の「え」がその方法を図解しています。1列目はぜんぶ60で割り(60自身も60で割ります)、2列目はぜんぶ40で割ります。「計」の列も忘れずに。結果は「え-2」です。どの列も同じ数が並んでいます。これが「期待値」の特徴です。