趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #31

カイ二乗統計量の計算

前回までに、クロス表のカイ二乗統計量の計算について書いてきました。ちょっと復習しておきましょう。

今回は、この表を計算式に書き換えていきます。本来は、e を計算する手順も式に書き換えてみたいのですが、ちょっと難しそうな気がするので、今回はスルーします。x と e の表ができている状態からスタートします。

(1) x から e を引く

引き算ですから、 x - eでOKです。が、1つのセルだけやるのではなくて、全部のセルで同じような計算をするので、x や e には添え字が必要です。全部を合計するために、セルに背番号をつけるという意味でも必要ですが、ちゃんと対応したセルどうして引き算するためにも必要です。どういうことかというと、左上のセルの度数と、左上のセルの期待度数を使って引き算をするのであって、左上のセルの度数と右上のセルの期待度数を使うのは変ですよね。「同じ位置のセル」どうしで計算をするのだ、ということを明示する意味でも、添え字が必要なんです。ということで、 x_{ij} - e_{ij}となります。これで、緑色の表が計算できました。

(2) それを二乗する

二乗しますから、 (x_{ij} - e_{ij})^2 です。引き算した結果を2乗するので、カッコが必要ですね。ここまでで、青色の表が計算できました。

(3) それを e で割る

割り算は分数で表現します。ですから、 \frac{(x_{ij} - e_{ij})^2}{e_{ij}} です。ここも添え字が重要ですね。これで、オレンジ色の表までたどり着きました。

(4) すべてのセルの分を合計する

合計するので、ここでシグマくんの出番です。度数の合計を算出したときのように、たてよこシグマくんを使います。したがって、
 \displaystyle \chi^2 = \sum_{i=1}^n \sum_{j=1}^m \frac{(x_{ij} - e_{ij})^2}{e_{ij}}
となります。合計した値は、カイ二乗統計量ですから、式の最初に  \chi^2 をおきました。ローマ字の x によく似ていますが、ギリシア文字の「カイ」という字(小文字)です。「カイ二乗」ですから、右肩に小さい「2」がのっかっています。
これで、教科書に登場する、カイ二乗統計量の計算式ができました。かなりごつい形をした式ですが、表と対応させながら、順に組み立てていくと、理解しやすいのではないかと思います。

ひとまずここまで

ずいぶんと書き散らかしてきた「シグマくんのはなし」ですが、ひとまずここまでで終わります。31回分をもう一度見直して、整理して、何らかの形にまとめる予定です。
お読みいただいた方々、ありがとうございました。次回からはまた別の話題で、書いてまいります。

シグマくんのはなし #30

散らばり具合、あるいは密集度

分散という指標の意味を表すのに、「データの散らばり具合」という言い方がよく使われます。英語表現の variance は一般的に「不一致」とか「変化」とかの意味で、dispersion も「解散」「消散」とかの意味で、どちらも数学では「分散」を表す単語として用いられる単語です。ですから、「散らばり具合」で正しいのです。でも、反対側から見て、「密集度」と表現している教科書があって、なるほど「分散が小さいということはデータが密集していること」という言い方をあわせて用いると、もう少しイメージがしやすいかもしれない、と思っています。

度数と期待度数の差の二乗

前回の記事では、「度数と期待度数の差(=クロス表における「偏差」)の二乗」が、「期待度数」と食い違っている度合いを表す指標(を計算するための値)になると書きました。でも、二乗した値のまま評価してよいのか、という疑問は残っています。なぜなら、分散はnあるいは自由度で割って、標本サイズの大きさに影響されない値になっていたからです。これを考えるために、こんなイラストを使ってみましょう。

イラストで考える「セル内の密集度、散らばり具合」


右に示したのは、前回用いた2行×2列の表の期待度数の部分です。期待度数と同じだけの顔のイラストを、セルの中に入れています。ここで重要なのは、どのセルも、同じような密集度になっていることです。どういうことでしょうか。
期待度数の表では、1行目と2行目の度数の比は「9:12=6:8=3:4」でした。ですから、イラストのセルの縦の長さも、ほぼ「3:4」にしてあります。1列目と2列目の度数の比は「9:6=12:8=3:2」でした。ですから、イラストのセルの横の長さも、ほぼ「3:2」にしてあります。
こんな風に、密集度、あるいは散らばり具合が、どのセルでも等しくなるような度数のことを期待度数という、という理解もいいかもしれませんね。

密集度を変えてみる

では、左上のセルの値を、2小さくしてみましょう。そうすると、他のセルの値がどのように変化するか、もう計算できますね。値の変化(=クロス表における「偏差」)の行の合計や列の合計が0になるように、調整すればよいのでした。

度数(顔のイラストの数)が増えたセルは、ちょっと窮屈な感じになっていますね。そして、左下のセル(期待度数12)と右上のセル(期待度数6)を比べると、同じように2だけ増えていますが、窮屈さの具合が少し違いませんか? 左下は、まだもう1人くらいは大丈夫な感じがしますが、右上は、もういっぱいいっぱいな感じがします。
左下と右上は、どちらもクロス表における「偏差」は2、その2乗は4でした。密集度は4増えているといえそうですが、同じ「4」でも、セル内の密集度に与える影響は異なりますね。これを調整するためには、増えた密集度「4」が、期待度数に対してどれくらいの大きさなのかを計算してやればよいことになります。したがって、

  • 左下のセル: 4 \div 12 = 0.333…密集度が33.3%変化した(増した)。
  • 右上のセル: 4 \div 6 = 0.667…密集度が66.7%変化した(増した)。

なるほど、右上のセルの方が密集度がより増した、つまり、より窮屈な感じになったことが、数値で表されました。

カイ二乗統計量

これまでのことを、前回使っていた表の右端に付け加えてみました。

水色の表(d^2)までは前回も掲載したものですね。オレンジ色の表は、それを期待度数で割った値です。かならず正の値になりますから、これだけ見ても、密集度が高くなったのか低くなったのかは判断できません。が、いずれにしても、期待度数とのずれが大きいほど、この値は大きくなることは分かると思います。表の右下には合計が記されています。この値(1.944)が、クロス表の検定(カイ二乗検定)で使われる、カイ二乗統計量です。

比較のために、左上のセルの度数を「8」にしたときの表も掲げます。先ほどの表と比べて、密集度の変化量が小さくなっていることが分かりますね。カイ二乗統計量は0.486でした。
こうやって計算したカイ二乗統計量を、表の自由度に対応したカイ二乗分布表と比べることで、この表は「意味がない」状況なのか、それとも、「意味がないとはちょっと言いにくいよね」という状況なのかを判断することになります。自由度が1のカイ二乗分布で、右側の5%点は3.841なので、どちらの場合も、「(ちょっと微妙な感じもするけど)意味がなさそう」と判断するのがよさそうですね。

シグマくんのはなし #29

クロス表における「偏差」

今回は、クロス表における「偏差」について考えます。
最初に断っておくと、前回も書いたように、クロス表で「偏差」という言葉はほぼ使われません。が、以下に書くような性質は、データから平均値を引いた値としての「偏差」と近いものであると私は思っているので、以下、「クロス表における「偏差」」というふうに書いていきます。何かほかに、適切な表現がないかなと思っております。

度数から期待度数を引く

通常の偏差は、データ(観測値)から、それらの平均値を引く、という方法で算出されていました。式で書くと、 x_i - \bar x ですね。
クロス表における「偏差」と私が言っているものは、クロス表に書かれている度数から、期待度数を引く、という方法で算出するものです。期待度数は、多くの教科書で  e_{ij} と書かれています。この  e は、Expected (期待値の「期待」の意)ですね。統計学では、誤差も一般に  e (これは error の意)と書かれるので、できれば別の字を使いたいのですが、これもいい案がうかびませんので、  e_{ij} を使っていきます。
クロス表における「偏差」を式で表すと、 x_{ij} - e_{ij} となります。e_{ij} で表される期待度数は、クロス表のすべての度数を使って計算され、「意味のない」状況、言い換えると、「まったく偏りのない状況」を表していると考えれば、平均値とよくにた立ち位置の値です。が、平均値と異なるのは、期待度数はセルごとに異なった値になるということですね。もちろん、表の構造によってたまたま同じ値が現れることはあるのですけど。

クロス表における「偏差」を計算してみる

では、実際に、クロス表における偏差を計算してみましょう。次の表を使います。

  1. 一番左の「x」と書かれている表が度数を表しています。表頭や表側、「計」の部分は省いてあります。度数の合計が表の右下に書かれています。ここでは35です。
  2. 表の大きさは「2行×2列」、自由度は1です。ここでは、黄色く塗ったセルの度数を変えながら、他の表の変化を観察していきます。今は、期待度数より1小さい「8」になっています。
  3. 次の「e」と書かれている表が期待度数を表しています。行の合計、列の合計が「x」の表と一致することを確かめてください。
  4. その右、「d」と書かれている表が、度数から期待度数を引いたもの、つまり、クロス表における「偏差」です。色の濃いセルは、「x」の自由度の位置に対応するセルです。

「合計すると0」があちこちに現われる

さて、ここまでで注目したいのは、次のことです。

  • クロス表における「偏差」を、行ごとに合計すると、どの行も0になる。
  • クロス表における「偏差」を、列ごとに合計すると、どの列も0になる。

最初の「x」の表は、黄色いセルの度数を、「9」から「8」に変えたものでした。度数を1減らしので、クロス表における「偏差」は「-1」になり、それを調整するように、右と下のセルには「1」が、対角線上のセルには「-1」が現れています。かならずこうなるのか? を検証するために、度数を少し変えてみます。

黄色いセルの度数を、「7」に変えたものです。度数をさらに1減らしたぶん、クロス表における「偏差」は「-2」になり、行合計、列合計が0になるように、「2」と「-2」が並んでいます。

同様に、黄色いセルを「6」にすると、「-3」と「3」が並びます。クロス表における「偏差」の行合計、列合計はやはり0です。

ここまでをまとめると

このように、「2行×2列」のクロス表における「偏差」は、
(1) 4つのセルで絶対値が等しくなり、
(2) 対角線にあるセル同士で符号が同じになり、
(3) 隣り合うセル同士で符号が逆になります。つまり、
(4) 1つのセルの「偏差」が決まると、行合計や列合計が0になるように、他のセルの「偏差」も決まってしまいます。

ただし、今は「2行×2列」のクロス表に限定しています。表が大きくなると、だんだん複雑になってきます。
「偏差」は合計すると0になることは、もう何度も話してきましたが、クロス表における「偏差」でも、同様のことが起きていたのですね。

黄色いセルの度数を増やしても同じなのか

ここまでは、黄色いセルの度数を、期待度数より1小さくする、さらに1小さくする、という方法で、表の数値を変えながら、クロス表における「偏差」がどのように変化するかを見てきました。じゃあ、黄色いセルの度数を、期待度数より大きくしていっても同じなのか? と気になるかもしれません。
結果は、同じになります。1つだけ例を示しておきます。

黄色いセルの度数が、期待度数より「2」大きいので、クロス表における「偏差」は「2」になっていて、行合計、列合計はやはり0になっていますね。

偏差を二乗する

さて、分散を計算するときに、偏差を二乗する必要があることを以前に書きました。同じ理由から、クロス表における「偏差」も二乗してすべて正の値にします。これが、「期待度数」と食い違っている度合いを表す指標(を計算するための値)になるわけですね。これまで示してきた画像では、「d^2」(dの2乗という意味です)で表しています。4つのセルですべて同じ値になっていますね。どうしてかというと、クロス表における「偏差」は、(2行2列の表では、)どのセルも絶対値が等しかったからです。
ところで、分散を計算するときには、「偏差」を二乗して合計し、それをn、あるいは自由度で割ったのでした。クロス表における「偏差」の2乗は、このあとどうすればいいのでしょうか?
次回はそれについて考えます。

シグマくんのはなし #28

「期待値」ではなく「期待度数」のほうがいいかな?

前回、クロス表の期待値について書きました。1つだけ補足しますと、「期待値」ではなく「期待度数」と書いたほうが正確なのかもしれません。クロス表のセルに書かれている値は、何かを測定した「値」ではなく、標本をクロス表に分類したときの数(これを度数というのでした)ですから、必ず、0以上の整数です。ただし、前回説明した(あるいは他の教科書などで説明されている)方法で計算した期待値は、整数にならない場合のほうが多いといえます(平均値が、多くの場合、整数にならないようにです)。つまり、「無理やり計算した」結果としての、「意味のない」状況を表す「度数」(らしきもの)を表現している値、ととらえるのがよさそうです。そういう意味では、「度数の期待値」という意味を込めて「期待度数」と表現するのが妥当かと思います。

クロス表における自由度


今回から、クロス表における自由度と偏差(?)について、2回に分けてお話したいと思います。偏差(?)という微妙な表現になっているのは、通常は「偏差」という用語を用いないからです。詳しくは次回に。
さて、クロス表の自由度は、ほとんどの教科書に、次のように書いてあると思います。

自由度 = (行数-1)×(列数-1)

クロス表の行数、列数の数え方はすでにお話ししましたから、計算そのものは簡単ですね。今回は、「でもさ、どうしてこうなってんの?」というあたりを、丁寧に図解したいと思います。ふたたび、好きなラーメンの味調査です。

この表を材料に話を進めます。まず、大前提の確認から。

前提1:カードは68枚しかない

カードとは何のことかというと、調査に協力してくれた人が、自分の地域とすきなラーメンの味を書いて出してくれたカードだと理解してください。カードを分類して並べてみたら、という話を、#25でしました。あのとき並べたカードを思い浮かべてください。
何をいまさら言っているかというと、表のセルの中にいろいろな数が入るかもしれないけれど、合計で68にならないといけません。ほかの回答を調べて、表に整理しているうちに、合計人数が変わるはずがありませんね。当たり前のことですが、大事です。

前提2:しょうゆを選んだ人は45人いる

68枚のカードを「ラーメンの味」にだけ注目して2つに分けると、「しょうゆ」と書かれたカードは45枚です。これも、すでにカードを集めてしまっているので、他の集計をしているうちに変わることはありません。
このことは、「とんこつを選んだ人は23人」と書いても同じことです。どうしてかというと、合計が68人だということは変えられないからです。

前提3:関東の人は35人いる

今度は、68枚のカードを地域にだけ注目して2つに分けると、「関東」と書かれたカードは35枚です。これも、やはり変わることはありません。また、「関西の人は33人」と書いても同じですね。

つまりこういうこと

つまり、さきほどの表の「計」の行(一番右と一番下)は、すでに確定している数です。たとえ2次元の表に整理し直しても、ここの数は変わるはずがないのです。
「え?だったら表は1種類しかできないのでは?」と思いますか?
そんなことはありません。上の3つの前提に含まれていないことが残っています。それは、「好きなラーメンの味」と「地域」をどのように組み合わせて書いたのか、ということです。そして、この組み合わせには、さまざまな可能性があるのです。そして、2次元表ならではの制約もあります。

クロス表の自由度

では具体的に自由度について考えていきましょう。分散を計算するときに、自由度について話しました。データの平均値があれば、どれか一つのデータは、平均値とそれ以外のデータを使って計算できてしまう。だから、分散を計算するときには、まるで、データが(n-1)個ぶんしかないように見えているのでした。
同じことを、クロス表でやってみましょう。さきほどの表の右下のセル「15」に注目します。行合計や列合計がすでに決まっているのですから、それらと、この「15」という数を使うと、計算できそうな値がありますね。

まず、「15」の上にある「30」は、列合計から15を引くと計算できます。
次に、「15」の右にある「18」は、行合計から15を引くと計算できます。
残ったのは右上の「5」ですが、列合計を使っても、行合計を使っても計算できますね。
ということは、この表は、実際には1つのセルの値が決まれば、4つのセルの値が自動的に決まってしまうことになります。データが4つあるように見えて、実は1つ分のデータしかないように見えるのです。つまり、自由度は「1」です。

式に当てはめてみる

最初に示した計算式に当てはめてみると、この表は「2行×2列」でしたから、
自由度 = (行数-1)×(列数-1)=(2-1)×(2-1)=1×1=1
です。さきほど考えた自由度と一致していますね。

一般化すると

より一般化すると、次の図で説明できるように思います。

青い★のセルの値は、青く囲んだセルの値から計算できます。うすい青色のセルを合計して、濃い青色(行合計)から引くと、青★の値になりますね。つまり、どこかの1列がわからなくても、ほかのセルの値を使って計算できる、つまり、(m-1)列しかないように見えているということです。
オレンジの★も同様に考えられます。うすいオレンジ色のセルを合計して、濃いオレンジ色(列合計)から引くと、オレンジ★の値になりますね。つまり、どこかの1行がわからなくても、ほかのセルの値を使って計算できる、つまり、(n-1)行しかないように見えているということです。
教科書が示している式は、これらを使って、自由度=(n-1)×(m-1)=(行数-1)×(列数-1)と書いているのでした。

シグマくんのはなし #27

2次元表に整理するということ

2次元の表にデータを整理する、という学習は、小学校の算数ですでに指導されていることです。たとえばこんな感じの表示について勉強するようです。(出版されている小学生用のドリルを参考にして、著者が作成した表です)

これは4年生に出題されている表です。実際には一人ひとりに、「ハンカチ:もっている、ティッシュ:もっていない」というようにカードに書いてもらい、それを集計するという課題です。目の前にカードがあれば、同じ答えが書かれているカードを集めて枚数を数える、というのが間違いがないでしょう。そんなカードセットを一人一組用意するのは非現実的ですから、そういったカードがランダムに並べられている「絵」を見て学習します。カード(の絵)を1枚1枚チェックしながら(鉛筆で印をつけながら)、「正」の字を書いて集計する、ということをさせるわけですね。これ、苦手な子ども多いでしょうねえ。「先生、なんでグーグルフォーム使わないの?」って。
さて、本題はそこではありません。話を戻しましょう。

意味がない状況について

シグマくんのはなし #18」で、「意味がない」状況について話しました。そのときに示した図を再掲します。

この図の左側、①の表が、「意味がない」状況でした。なぜかというと、地域で分けてみても、地域で分けなくても、味の好みの割合が「しょうゆ:とんこつ=3:2」で、変わらないからです。地域で分けてみたってなにも変わらないのだから、わざわざそんなこと(=地域に分けてみること)しなくていい、そんなの意味がない、ということですね。
そのときには話題にしませんでしたが、このような「まったく意味がない」状況を示しているときの、それぞれのセルの値のことを、クロス表の「期待値」といいます。

「期待値」に何を期待するか

ところで、《期待値》という語を日常的な感覚で読むと、統計学でいうところの「期待値」と意味が違ってくるように思います。ちょっと辞書を引いてみましょう。以下、電子辞書版の広辞苑第六版です。

きたいち【期待値】〔数〕離散的確率変数のとる値に、対応する確率をそれぞれ掛けて加えた値。平均値。

ほーら、わかんないでしょ? これは、統計学で用いる「期待値」の意味と近いものです。(同じです、と言い切れないのは、離散的確率変数だけでなく、連続的確率変数についても「期待値」を考えるからです。)
じゃあ、「期待」はどうでしょう。こちらは三省堂新明解国語辞典第七版も併記しましょう。

きたい【期待】
将来その事が実現すればいいと、当てにして待ち設けること。(広辞苑
望ましい事態の実現、好機の到来を心から待つこと。(新明解)

このように、「期待」は、望ましいことや実現してほしいことを待っているときに使うのですね。ですが、統計学でいうところの「期待値」の「期待」には、そのような、「本当にならないかなあ~ワクワク❤」「絶対実現してほしいなあ~ドキドキ❤」みたいなポジティブな感情は、いっさいありません。
ですから、さきほどのラーメンの味の好みについても、「しょうゆ v.s. とんこつ、地域で分けてみたら、どんな風になるんだろうなあ、わくわくするなあ~」などという感情はこれっぽっちもなくて、「地域で二つに分けるんですね。はい、どちらも「÷2」しておきました」と、まあ、これ以上にないくらいに素っ気ないのです。これが「期待値」です。「関東はきっとしょうゆが多いと思うぞ」とか、「とんこつといえば九州だよね」とか、そういう結果を、研究者としては望んでいるかもしれません。でも、それを「期待値」に期待してはいけないのです。

「期待値」の計算方法

期待値の計算方法は、いくつか覚え方があるのですが、「どちらも「÷2」しておきました」という方法は、実は誤りを含んでいるので、それを修正していくことにしましょう。

「あ」の表は、上に示した①と同じです。ここで、しょうゆ味の60人を「÷2」して30人と30人に分けてあるのですが、なぜこれでいいかというと、地域Aと地域Bの人数の比が、「50人:50人=1:1」だからです。
「意味のない」状況を作るということは、1行目と2行目を比べても何も違いがない状況にすることですね。何も違いがないようにするためには、合計人数と同じ比にすればいいのです。この表ではたまたま「地域A:地域B=1:1」だったので(つまり合計の100人を2で割って50人と50人にしたのと同じことだったので)、「60を2で割って、30人と30人にした」というやり方でも正しい結果が得られていたんですね。
「い」の表は、「地域A:地域B=1:3」で、ずいぶん人数の偏りがあります。ですから、「しょうゆ味の60人」も、同じように「1:3」になるようにします。「とんこつ味の40人」も、やはり「1:3」になるように分けます。
期待値の計算方法はほかにもあります。お使いの教科書などを調べてみてください。
いの表は、1行目と2行目で人数が明らかに違うために、一見、偏りがあるように見えますが、相対度数を計算すると、確かに「意味のない」状況を示していることがわかります。やってみましょう。

行相対度数、列相対度数


「行相対度数」は、1行目のセルの値は1行目の行合計で割る、というやり方で計算します。図の「う」がその方法を図解しています。1行目の行合計は25なので、1行目はぜんぶ25で割ります(書いてありませんが、行合計も行合計で割ります。つまり、「25÷25」をします)。2行目はぜんぶ75で割るのですね。やはり書いてありませんが、「計」の行も同様に割り算します。結果は、「う-2」のようになります。どの行も同じ数が並んでいます。これが「期待値」の特徴です。
「列相対度数」は、1列目のセルの値は1列目の列合計で割る、というやり方で計算します。図の「え」がその方法を図解しています。1列目はぜんぶ60で割り(60自身も60で割ります)、2列目はぜんぶ40で割ります。「計」の列も忘れずに。結果は「え-2」です。どの列も同じ数が並んでいます。これが「期待値」の特徴です。

シグマくんのはなし #26

たてよこシグマくんを分解しよう

前回の最初に呈示した式を再掲しましょう。
 \displaystyle x_{..} = \sum_{j=1}^m \sum_{i=1}^n x_{ij}
表の中に入っている数たちの総合計を求める式だったので、左辺もその記号(x_{..})にしてあります。添え字が2つついているのは、一方が「何列目の数たちの仲間か」を示していて、もう一方が「何行目の数たちの仲間か」を示していました。何度も繰り返し読んだりしていると、だんだん行と列がごっちゃになってくるかもしれませんね。でも、表自体は、横向きに倒しても(つまり行と列を入れ替えても)意味は変わらないので、深く考えすぎないようにしましょう。
では、たてよこシグマくんを、分解していきます。

第一段階:1行目の合計を計算

まず、上に乗っかっている、横向きのシグマくんに活躍してもらいます。一番上の行だけを、ぱくっと口の中に入れてもらって、合計を出してもらいましょう。「1行目」の「合計」なので、計算結果は  x_{1.} としておきます。これを、左に立っているもう一つのシグマくんのお口に入れます。

第二段階:2行目以降も同じように

そうしたら、2行目以降も同じようにしていきます。1行目はもう計算し終わったのでよけておいて、2行目をぱくっと合計し、左のシグマくんのお口に入れます。「2行目」の「合計」なので、こんどは x_{2.} ですね。
3行目、4行目も同じようにします。

第三段階:行合計を合計する

ぜんぶの行を計算し終わると、横向きのシグマくんの仕事は終わりです(わかりやすく、下の図では消えてもらっています)。縦向きのシグマくんの口の中には、行合計が集まっていますから、これを全部足し算すると、総合計がわかりますね。

終わった!

ということで計算が終わりです。2つのシグマくんが力を合わせて、すべてのセルの数を合計している様子がわかっていただけたでしょうか。

なお、ここに示したのは、総和記号が2つ並んでいるときの考え方の一例であって、必ずこの手順で計算しているという意味ではありません。要は、

  1. まず行ごと(または列ごと)に合計し、
  2. 次にそれらを合計する

という手順を踏むことで、すべてのセルの値をもれなく合計しているのだ、ということが理解できればOKです。
繰り返しになりますが、行と列とを入れ替えても、結果は同じです。表の意味も変わりません。ただし、相対度数を計算するときは、行と列とでその意味が変わってくるので、そこだけは注意が必要です。

次回からは、たてよこシグマくんが登場する、カイ二乗検定について話していきます。ふたたび、自由度、偏差、偏差二乗が登場します。

シグマくんのはなし #25

たてよこシグマくん

最後のパートでは、ひときわごつい、この形についてお話していきます。
 \displaystyle \sum_{j=1}^m \sum_{i=1}^n x_{ij}
なんですか、これは…思わず絶句しそうな方、どうぞお付き合いください。見た目がいっそうごついので、以下、しばらくの間は、これを「たてよこシグマくん」と呼んでいきます。「たてよこ」なので、本当はこんな風に書きたいのですが、数式でこんなふうに書けるのかなあ? どなたかご存じありませんか?

総和記号(シグマくん)が2つありまして、ひとつが縦方向担当のシグマくん、もうひとつが横方向担当のシグマくんです。数式だとどっちがどっち? とか聞かないでくださいね。結局どっちでも同じなので。

2次元の表について考える

この「親子シグマくん」を使うのは、次のような表について考えるときです。いつものように、架空の設定で数値を入れています。

この表では、すでに横方向の計や縦方向の計、総合計が計算されていますが、これらを計算するときの式として、最初のごつい数式、「たてよこシグマくん」が使われます。・・・まだちょっと説明不足ですよね。
実際にシグマくんに動いてもらう前に、ちょっと用語の整理をしましょう。

用語の整理

さっき、「横方向の計」「縦方向の計」という言い方をしましたが、これらは、「行ごとの合計」「列ごとの合計」と呼ぶことにします。「行」というのは、横方向にならんでいる数たちのことで、「列」というのは、縦方向に並んでいる数たちのことです。「総合計」はそのまま「総合計」とします。また、数たちが入っている1つ1つのマスを「セル」と呼びます。

表を見ながら、ここからここまでを合計したらこの数になる、というふうに確かめてみてくださいね。

表の大きさの表現

表の大きさは、「行」の数と「列」数を使って表します。最初に例示した表は、「4行3列」の表です。
え!どうして「4行3列」なの? 「6行5列」じゃないの?
そう思った方のために付け加えると、表の大きさの数え方は、2つの考え方があります。

●第一の考え方
一番上の行と一番左の列は、数たちに名前をつけている部分ですね。一番左の列を「表側(ひょうそく)」といいますが、ここは、それぞれの行に並んでいる数たちに名前をつけています。順に、「北海道、関東、関西、九州」で、4つありますから、「4行」です。(このとき「計」は数えません)
同様に、一番上の行を「表頭(ひょうとう)」といいますが、ここには、それぞれの列に並んでいる数たちに名前をつけています。順に、「しょうゆ、とんこつ、みそ」で、3つありますから、「3列」です。(やはり「計」はかぞえませんよ。)

●第二の考え方
実際に200人の人に、「地域」と「すきな味」をカードに書いてもらった場面を想像してください。そして、同じことが書かれているカードを束にして、並べましょう。地域が「北海道」の人は200人いましたが、そのうち、「しょうゆ」と書いた人(つまり、カードに「北海道/しょうゆ」と書いた人ですね)は10人なので、10枚のカードを束ねて左上におきました。「北海道/とんこつ」と書いた人は5人なので、これをそのとなりに、「北海道/みそ」と書いた人は35人なので、これをその右におきました。これを繰り返していくと、カードの山が12個できますね。横方向のカードの集まり(つまり同じ地域)が4行分、縦方向のカードの集まり(つまり同じ味)が3列分です。ですから、「4行3列」です。

表の大きさは重要です

どうでしょう。表の大きさについて理解できましたか。こんなことは統計分析に関係ないと思われるかもしれませんが、いえいえどうして。重要なんです。どこで重要かというと、表の「自由度」を考える時に重要なんです。でも、その話はもう少し後にします。

x_{ij}に2つの添え字があるのは

ここまでくると、x_{ij}に、2つの添え字(i, j)がある理由もわかってきませんか?
たとえば、下の方にある「42」という数は、「九州」という数たちのあつまり(4行目)にも入っていますし、「とんこつ」という数たちのあつまり(2列目)にも入っています。なので、「42」という数は、x_{42}のように表します。添え字の「42」は、「4行目の集まりにも入っているし、2列目の集まりにも入っているよ」という意味ですね。
(注:添え字にi,jが使われているのは、それほど大きな理由はなく、単に「慣習」なのだと理解してよいと思います。また、ここでは添え字の「42」を、「4行目、2列目」と説明していますが、同じ意味でx_{24}、つまり、「2列目、4行目」と書いても間違いではありません。そういう教科書に出会ったら、あ、この人のやり方は、列の方先に数えるやり方なんだな、と理解しましょう。)

表独特の添え字「x_{i.}

見えますか? 添え字が「i.」になっています。いえ、書き間違いではありません。ついでに目の錯覚でもありません。この・(ドット)の添え字は、こういう2次元の表なんかに使われる独特の表記で、「合計」を表しています。何の合計でしょう?
本来、x_{i.}の、ドットの部分には「j」が入っているはずでした。なのでこの場合は、x_{i1},x_{i2},...というふうに、 j の部分の背番号がふつうは変わるんだけど、それ、全部集めて合計しといてください、という意味になります。表を見ながら、もう少し具体的に書きましょう。

表の1行目だけ抜き出しました。1行目なので、最初の添え字はみんな「1」ですね。「10」は1列目にあるので2つ目の添え字も「1」、したがって記号で書くと  x_{11} です。次の「5」は2列目にあるので2つ目の添え字が「2」で x_{12}、次の「36」は3列目なので x_{13} です。これらを合計した「51」は、1行目の、「すべての列を足し合わせた」ものなので、2つ目の添え字を「・」(ドット)にして、 x_{1.} と書くのです。
列方向も同じように考えます。好きな列だけ抜き出して、考えてみてください。
というわけで、応用問題として x_{..} というのをお見せしましょう。なんだかわかるでしょうか?

1つ目の添え字も、2つ目の添え字も、どちらも「・」になっているので、要するに「全部の合計」という意味になります。そうです。最初に書いたあのごつい数式は、 x_{..}を求めるための式だったのですね。
では、次回から、計算の仕方を分解していきましょう。