趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #28

「期待値」ではなく「期待度数」のほうがいいかな?

前回、クロス表の期待値について書きました。1つだけ補足しますと、「期待値」ではなく「期待度数」と書いたほうが正確なのかもしれません。クロス表のセルに書かれている値は、何かを測定した「値」ではなく、標本をクロス表に分類したときの数(これを度数というのでした)ですから、必ず、0以上の整数です。ただし、前回説明した(あるいは他の教科書などで説明されている)方法で計算した期待値は、整数にならない場合のほうが多いといえます(平均値が、多くの場合、整数にならないようにです)。つまり、「無理やり計算した」結果としての、「意味のない」状況を表す「度数」(らしきもの)を表現している値、ととらえるのがよさそうです。そういう意味では、「度数の期待値」という意味を込めて「期待度数」と表現するのが妥当かと思います。

クロス表における自由度


今回から、クロス表における自由度と偏差(?)について、2回に分けてお話したいと思います。偏差(?)という微妙な表現になっているのは、通常は「偏差」という用語を用いないからです。詳しくは次回に。
さて、クロス表の自由度は、ほとんどの教科書に、次のように書いてあると思います。

自由度 = (行数-1)×(列数-1)

クロス表の行数、列数の数え方はすでにお話ししましたから、計算そのものは簡単ですね。今回は、「でもさ、どうしてこうなってんの?」というあたりを、丁寧に図解したいと思います。ふたたび、好きなラーメンの味調査です。

この表を材料に話を進めます。まず、大前提の確認から。

前提1:カードは68枚しかない

カードとは何のことかというと、調査に協力してくれた人が、自分の地域とすきなラーメンの味を書いて出してくれたカードだと理解してください。カードを分類して並べてみたら、という話を、#25でしました。あのとき並べたカードを思い浮かべてください。
何をいまさら言っているかというと、表のセルの中にいろいろな数が入るかもしれないけれど、合計で68にならないといけません。ほかの回答を調べて、表に整理しているうちに、合計人数が変わるはずがありませんね。当たり前のことですが、大事です。

前提2:しょうゆを選んだ人は45人いる

68枚のカードを「ラーメンの味」にだけ注目して2つに分けると、「しょうゆ」と書かれたカードは45枚です。これも、すでにカードを集めてしまっているので、他の集計をしているうちに変わることはありません。
このことは、「とんこつを選んだ人は23人」と書いても同じことです。どうしてかというと、合計が68人だということは変えられないからです。

前提3:関東の人は35人いる

今度は、68枚のカードを地域にだけ注目して2つに分けると、「関東」と書かれたカードは35枚です。これも、やはり変わることはありません。また、「関西の人は33人」と書いても同じですね。

つまりこういうこと

つまり、さきほどの表の「計」の行(一番右と一番下)は、すでに確定している数です。たとえ2次元の表に整理し直しても、ここの数は変わるはずがないのです。
「え?だったら表は1種類しかできないのでは?」と思いますか?
そんなことはありません。上の3つの前提に含まれていないことが残っています。それは、「好きなラーメンの味」と「地域」をどのように組み合わせて書いたのか、ということです。そして、この組み合わせには、さまざまな可能性があるのです。そして、2次元表ならではの制約もあります。

クロス表の自由度

では具体的に自由度について考えていきましょう。分散を計算するときに、自由度について話しました。データの平均値があれば、どれか一つのデータは、平均値とそれ以外のデータを使って計算できてしまう。だから、分散を計算するときには、まるで、データが(n-1)個ぶんしかないように見えているのでした。
同じことを、クロス表でやってみましょう。さきほどの表の右下のセル「15」に注目します。行合計や列合計がすでに決まっているのですから、それらと、この「15」という数を使うと、計算できそうな値がありますね。

まず、「15」の上にある「30」は、列合計から15を引くと計算できます。
次に、「15」の右にある「18」は、行合計から15を引くと計算できます。
残ったのは右上の「5」ですが、列合計を使っても、行合計を使っても計算できますね。
ということは、この表は、実際には1つのセルの値が決まれば、4つのセルの値が自動的に決まってしまうことになります。データが4つあるように見えて、実は1つ分のデータしかないように見えるのです。つまり、自由度は「1」です。

式に当てはめてみる

最初に示した計算式に当てはめてみると、この表は「2行×2列」でしたから、
自由度 = (行数-1)×(列数-1)=(2-1)×(2-1)=1×1=1
です。さきほど考えた自由度と一致していますね。

一般化すると

より一般化すると、次の図で説明できるように思います。

青い★のセルの値は、青く囲んだセルの値から計算できます。うすい青色のセルを合計して、濃い青色(行合計)から引くと、青★の値になりますね。つまり、どこかの1列がわからなくても、ほかのセルの値を使って計算できる、つまり、(m-1)列しかないように見えているということです。
オレンジの★も同様に考えられます。うすいオレンジ色のセルを合計して、濃いオレンジ色(列合計)から引くと、オレンジ★の値になりますね。つまり、どこかの1行がわからなくても、ほかのセルの値を使って計算できる、つまり、(n-1)行しかないように見えているということです。
教科書が示している式は、これらを使って、自由度=(n-1)×(m-1)=(行数-1)×(列数-1)と書いているのでした。