趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #25

たてよこシグマくん

最後のパートでは、ひときわごつい、この形についてお話していきます。
 \displaystyle \sum_{j=1}^m \sum_{i=1}^n x_{ij}
なんですか、これは…思わず絶句しそうな方、どうぞお付き合いください。見た目がいっそうごついので、以下、しばらくの間は、これを「たてよこシグマくん」と呼んでいきます。「たてよこ」なので、本当はこんな風に書きたいのですが、数式でこんなふうに書けるのかなあ? どなたかご存じありませんか?

総和記号(シグマくん)が2つありまして、ひとつが縦方向担当のシグマくん、もうひとつが横方向担当のシグマくんです。数式だとどっちがどっち? とか聞かないでくださいね。結局どっちでも同じなので。

2次元の表について考える

この「親子シグマくん」を使うのは、次のような表について考えるときです。いつものように、架空の設定で数値を入れています。

この表では、すでに横方向の計や縦方向の計、総合計が計算されていますが、これらを計算するときの式として、最初のごつい数式、「たてよこシグマくん」が使われます。・・・まだちょっと説明不足ですよね。
実際にシグマくんに動いてもらう前に、ちょっと用語の整理をしましょう。

用語の整理

さっき、「横方向の計」「縦方向の計」という言い方をしましたが、これらは、「行ごとの合計」「列ごとの合計」と呼ぶことにします。「行」というのは、横方向にならんでいる数たちのことで、「列」というのは、縦方向に並んでいる数たちのことです。「総合計」はそのまま「総合計」とします。また、数たちが入っている1つ1つのマスを「セル」と呼びます。

表を見ながら、ここからここまでを合計したらこの数になる、というふうに確かめてみてくださいね。

表の大きさの表現

表の大きさは、「行」の数と「列」数を使って表します。最初に例示した表は、「4行3列」の表です。
え!どうして「4行3列」なの? 「6行5列」じゃないの?
そう思った方のために付け加えると、表の大きさの数え方は、2つの考え方があります。

●第一の考え方
一番上の行と一番左の列は、数たちに名前をつけている部分ですね。一番左の列を「表側(ひょうそく)」といいますが、ここは、それぞれの行に並んでいる数たちに名前をつけています。順に、「北海道、関東、関西、九州」で、4つありますから、「4行」です。(このとき「計」は数えません)
同様に、一番上の行を「表頭(ひょうとう)」といいますが、ここには、それぞれの列に並んでいる数たちに名前をつけています。順に、「しょうゆ、とんこつ、みそ」で、3つありますから、「3列」です。(やはり「計」はかぞえませんよ。)

●第二の考え方
実際に200人の人に、「地域」と「すきな味」をカードに書いてもらった場面を想像してください。そして、同じことが書かれているカードを束にして、並べましょう。地域が「北海道」の人は200人いましたが、そのうち、「しょうゆ」と書いた人(つまり、カードに「北海道/しょうゆ」と書いた人ですね)は10人なので、10枚のカードを束ねて左上におきました。「北海道/とんこつ」と書いた人は5人なので、これをそのとなりに、「北海道/みそ」と書いた人は35人なので、これをその右におきました。これを繰り返していくと、カードの山が12個できますね。横方向のカードの集まり(つまり同じ地域)が4行分、縦方向のカードの集まり(つまり同じ味)が3列分です。ですから、「4行3列」です。

表の大きさは重要です

どうでしょう。表の大きさについて理解できましたか。こんなことは統計分析に関係ないと思われるかもしれませんが、いえいえどうして。重要なんです。どこで重要かというと、表の「自由度」を考える時に重要なんです。でも、その話はもう少し後にします。

x_{ij}に2つの添え字があるのは

ここまでくると、x_{ij}に、2つの添え字(i, j)がある理由もわかってきませんか?
たとえば、下の方にある「42」という数は、「九州」という数たちのあつまり(4行目)にも入っていますし、「とんこつ」という数たちのあつまり(2列目)にも入っています。なので、「42」という数は、x_{42}のように表します。添え字の「42」は、「4行目の集まりにも入っているし、2列目の集まりにも入っているよ」という意味ですね。
(注:添え字にi,jが使われているのは、それほど大きな理由はなく、単に「慣習」なのだと理解してよいと思います。また、ここでは添え字の「42」を、「4行目、2列目」と説明していますが、同じ意味でx_{24}、つまり、「2列目、4行目」と書いても間違いではありません。そういう教科書に出会ったら、あ、この人のやり方は、列の方先に数えるやり方なんだな、と理解しましょう。)

表独特の添え字「x_{i.}

見えますか? 添え字が「i.」になっています。いえ、書き間違いではありません。ついでに目の錯覚でもありません。この・(ドット)の添え字は、こういう2次元の表なんかに使われる独特の表記で、「合計」を表しています。何の合計でしょう?
本来、x_{i.}の、ドットの部分には「j」が入っているはずでした。なのでこの場合は、x_{i1},x_{i2},...というふうに、 j の部分の背番号がふつうは変わるんだけど、それ、全部集めて合計しといてください、という意味になります。表を見ながら、もう少し具体的に書きましょう。

表の1行目だけ抜き出しました。1行目なので、最初の添え字はみんな「1」ですね。「10」は1列目にあるので2つ目の添え字も「1」、したがって記号で書くと  x_{11} です。次の「5」は2列目にあるので2つ目の添え字が「2」で x_{12}、次の「36」は3列目なので x_{13} です。これらを合計した「51」は、1行目の、「すべての列を足し合わせた」ものなので、2つ目の添え字を「・」(ドット)にして、 x_{1.} と書くのです。
列方向も同じように考えます。好きな列だけ抜き出して、考えてみてください。
というわけで、応用問題として x_{..} というのをお見せしましょう。なんだかわかるでしょうか?

1つ目の添え字も、2つ目の添え字も、どちらも「・」になっているので、要するに「全部の合計」という意味になります。そうです。最初に書いたあのごつい数式は、 x_{..}を求めるための式だったのですね。
では、次回から、計算の仕方を分解していきましょう。

シグマくんのはなし #24

平均値を選択する

以前から使用している設定を再掲します。

これを用いて、前回は、全平方和(を自由度で割った全分散)と、群内平方和(を自由度で割った郡内分散)について話しました。そこで、全平方和を割ったときの自由度が19であったのに対し、群内平方和を割ったときの自由度が18で、1だけ違っていることについて「ここは気にしてください」と書きました。今回はこれを解き明かしていきたいと思います。

なぜ2つの群に分けようとするか

以前に書いたことの繰り返しになるのですが、20人に対して調査をしたのなら、20人分をまとめて、平均を出したり分散を出したりすればよいのです。それを2つに分けるということは、「標本を2つに分けることで、何か意味のある情報が得られる」と考えるからですね。
もしも、2つに分けても、それぞれの平均値が全く同じ(あるいは無視できるくらいの小さな差しかない)のであれば、あえて標本を2つに分ける意味なんかありません。今回の標本は、2つに分けると、平均値にそれなりの違い(7.9に対して6.7)がありましたから、「やっぱ、意味あるんじゃね?」となります。本当に統計的に見て意味があるのかを考えようとするのが統計的分析であり、一つの判断基準を示すのが統計的検定でした。

2つの群に分けることは平均値を選ぶこと

ところで、2つの群にただ分けただけでは何も起こりません。2つの群に分けて、「こっちの群は、こっちの群だけで計算した平均値を使おう」と判断することが、2つの群に分けることの本質です。どうして、群ごとの「平均値」を選ぶかというと、平均値を使うことで、偏差平方和がもっとも小さくなるからです(「平均値」の性質として以前にまとめましたね)。
2つの群に分けた上に、分ける前に使っていた平均値(それは全体の=ここでは20人の平均値でした)を使ってしまうと、偏差平方和を(つまり分散を)過大推定してしまいます(どうして「過大」推定なのかも、すでに話しましたね)。かといって、自由に(ほんとうに自由に)平均値の代わりになる値を選んでしまうこともできません。偏差平方和を過大推定することになりますし、どうしてその値を平均値の代わりに選ぶのかの理由付けが必要です。
というわけで、結局、群ごとの偏差平方和を計算するのに、群ごとの平均値を用いるのがもっとも合理的だということになります。

「群ごとの平均値」は1つ選べば十分

ところで、「群ごとの平均値」は、(ここでは2つの群で考えていますから)どちらか片方の平均値を選ぶと、もう片方の平均値は自動的に決まります。何を言っているか分かりますか?
全体の(20人分の)平均値はすでに計算されています。標本を2つに分けて、「A群はA群の平均値を使って、偏差平方和を計算しよう」と決めたときに、もう一方のB群は、B群の平均値を選ばざるを得なくなります。全体の平均値がすでに決まっている以上、一方を選んだら、もう一方は自動的に決まります。ここでは2つの群で考えていますが、群が3つの場合には、2つの群について平均値を選べば、残りの1つの群の平均値は自動的に決まります。
すなわち、「群ごとの平均値を使おう」と決めた時、すべての群について平均値を選べるのではなく、順に平均値を選んでいったとき、最後の群の平均値は自動的に決まってしまいます。「平均値を選ぶ」ということの自由度は、「群の数ー1」である、ということです。

「群間平方和」

「群ごとの平均値を使う」ことによって、平方和が7.2小さくなったことは、前回にお話ししました。そして、上で話してきたように、この平方和の自由度は、群の数-1、つまり「1」です。したがって、7.2\div1=7.2が、分散(母分散の推定値)の値です。各群の平均値の差が大きいほど、この平方和は大きくなりますから、各群の平均値間の散らばり(あるいは密集度)を表しているという意味で「群間平方和(群間分散)」とよんでいます。

役者がそろった

さて、以上で、分散分析の役者がそろいました。表に整理します。これを「分散分析表」といいます。Rなどの分析ツールで分析すると、これと同じ形式の表が出力されます。Excelでも同様です。ただし、使われている用語が異なっていますから、どれか一つ(お使いの教科書の用語で理解するのが良いと思います)に読み替えて理解しましょう。幸い、用語が違っても、書いてある場所が同じなら同じ意味をもった数値です。

   平方和 自由度 分散(平均平方)
群間 7.2 1 7.2
群内 49.0 18 2.722
全  56.2 19 2.958

そして、この表から、2つの数値が計算されます。(まだ続くんかい…)

  1. 分散比(F値):「郡間の分散」÷「郡内の分散」です。7.2÷2.722=2.645が、この分析における分散比(F値)です。この値は、F分布表と見比べることで、「統計的に意味のある差」かどうか、すなわち、母集団においても平均値に差があるといえるのかどうかを判断する、1つの目安になります。F分布表の見方は、お使いの教科書を参照して下さい。Rなどの統計ツールを使うと、判断の目安になるp値という値に自動的に変換してくれますから、統計ツールが使える環境なら、そのほうが便利でしょう。
  2. 分散説明率(決定係数):「群間の平方和」÷「全平方和」7.2÷56.2=0.128が、この分析における分散説明率(決定係数)です。百分率に読み替えて、12.8%という書き方をすることも多いです。「全体の平均」ではなく、「群ごとの平均値」を使うことによって、分散を12.8%小さくできた、ということですね。これを、「分散の12.8%を説明することができた」というふうに表記している教科書も多いと思います。分散というのは、個人差など、いろいろな理由でデータに生じるバラツキや密集度の指標でした。そのうち、12.8%は、「2つの群を別々に考えないといけないのに、いっしょに考えてしまったから生じてしまったんだね」というふうに「説明」できた、と考えるのです。じゃあ、残りの81.2%は何なんだ? ということになりますが、個人差とか、そのほかいろいろな理由でバラついたり密集したりしているのでしょう。このデータからは、そのほかのことはわかりませんね。だって、「学習センターAとB」という違い以外に、個人の特徴を表すデータが含まれていませんからね。

とりあえず分散分析を終わろう

というわけで、とりあえず分散分析の話を終わります。
書き飛ばしたところ、書き忘れ、間違い、勘違い、あれこれ出てきそうです。お気づきのことがありましたら、ツッコミをいれていただくと喜びます。(お手柔らかに・・・)

迷うということ

最近の読書

おもちゃクリエーターの高橋さんの本。
www.hanmoto.com
気になるところがいくつかあったのだけど、とりあえずこれを引用。

講師という立場の人がはっきりと断言すると受講生は受け入れてしまいますが、迷っていると受講生は考えてくれます。
(中略)
プロや専門家とは、ある考えに到達するのではなく、誰よりも一生懸命迷い続けられる人なのだと思います。

なるほど。講義中に自分が出した問に自分がわからなくなって、黙り込んで考え込んでしまった教授(誰だったか覚えていないのが悲しい)の話を聞いたことがあるのを、今書きながら思い出した。

シグマくんのはなし #23

設定の再確認

自由度の話をしたので、分散分析の話に戻りましょう。#19と#20で出した設定をもう一度復習します。そして、母集団と自由度も、確かめていきましょう。

母集団

この調査では、放送大学の2つの学習センターAとBで、面接授業に参加していた学生それぞれ10人に回答してもらったのでした。標本はこの20人として、母集団は何になるのでしょう。いろいろ考えられるのですが、細かい議論はここではしません。ざっくりと、「放送大学の学生」としておきます。そして、面接授業AとBとで研究分野が大きく異なるので、研究分野への興味関心によって、受講単位数が変わるか、という(無理やりな)設定ということにしておきます!(汗)
無理やりな設定だと自覚しております。いずれまとめるときには設定し直しま~す。

自由度

自由度はどうでしょう。
まず、20人全員の受講単位数の分散を考える時には、自由度は 20-1=19 です。しかし、学生をAとBの2つの群に分けてそれぞれの分散を計算するときには、どちらも n=10 ですから、自由度はそれぞれ 10-1=9 になりますね。#20では、どちらも、偏差平方和を10で割り算していますから、計算し直す必要があります。
それと、学生を2つの群に分けたことで、自由度が1つ減っているのに気づきましたか? 20人全員で分散を計算するときには19、2つの群に分けると、それぞれ9なので、合わせると18。数が合わないような気がしませんか?
そんなの気にしない、という方もおられるでしょうが、ここは気にしてください。分散分析のもっとも重要なポイントといってもいいかもしれないのです。

分散を計算し直そう

では、自由度で割る、という方法で、分散を計算し直していきましょう。まず、20人全員をひとまとまりに考えたときの分散(母分散の推定値)です。

ここからは、A群とB群をまとめて計算していきます。別々に計算する場面も出てくるのですが、もともと「ひとまとまりのデータ」ですから、まとめて計算するべきなのですね。
平均値が7.3(これは20人分の平均値です)と仮定したときの、偏差2乗を求めて、それを合計して、自由度で割ります。これが分散です。次に計算する分散と区別するために、データ全体を使って求めた分散という意味で、「全分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「全平方和」と表現していて、ここで求めた「全分散」は、単に「不偏分散」(母集団の分散の推定値)と書いていることの方が多いと思います。

群ごとに計算した平均値を使うと

次に、A群、B群に分けて計算した平均値を使って、分散を計算しましょう。平均値が異なるので分けて計算していますが、2つをまとめて母分散の推定値であると解釈します。
(注:ここが非常にわかりにくくなってしまっています。帰無仮説について解説しないと、2つの群をまとめることの意味が説明できないと思います。帰無仮説について、平均値を丸めると…の後くらいに追加しないといけませんね。で、平均値をずらすことによる分散の過大推定分について、帰無仮説と対立仮説の文脈で語ると、ようやくここに話がつながりそうな気がします。著者覚え書き。)

それぞれ、自分の群の平均値を使って求めたを偏差を2乗して、合計して、自由度で割ります。上で求めた「全分散」と比較するために、両方の群をまとめて計算しています。どうして別々に計算しないの? と思われるかもしれませんが、先に書いたように、これは「ひとまとまりのデータ」だからです。
(注)このことについて、最初から「ひとまとまりのデータ」であることを示して、合計して計算して提示する方が混乱が少なった。分散分析のはじめの部分を書き直す必要がある。以上、著者覚え書き。
この分散は、群ごとの平均値、つまり、「これが自分たちの群の平均値なのだ」と、それぞれの群のデータたちが主張する平均値を使ってもなお、データの特徴として得られる「データのバラつき具合」の指標です。難しい言い方をしていますが、要するに、「A群とかB群とか、そういう違い以外のいろいろな理由で、どうしても生まれてきてしまう個人差」を、なんとか数値化したもの、と考えておきましょう。
この「分散の意味」についても、もっと早い段階で出しておくべき。著者覚え書き。
群に分けても、なお群のなかに残ってしまう分散、という意味で、以下、「郡内分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「群内平方和」と表現していて、自由度で割った値(「郡内分散」)は、「群内平均平方」という言い方をしていることが多いと思います。「平均平方」の「平均」を「自由度で割った」という意味と考えれば、結局同じことを言っているのです。

その差はどこから

さて、前にも述べたように、「全分散」では、データ全体を使って計算した平均値を使っていますから、その平均値と、群ごとの平均値の差の2乗だけ、分散が大きくなってしまうのでした。自由度で割ることによって、以前に述べたような単純な関係ではなくなっていますが、理屈としては同様のことが起こっています。
具体的にどのくらい差があるのかについて、「全分散」と「郡内分散」の差を求めたくなりますが、自由度が異なっているものを単純比較するのは変です。そこで、割り算する前の、「全平方和」と「群内平方和」の差を考えましょう。
「全平方和」(56.2)から「群内平方和」(49.0)を引くと、7.2になります。
これが、全体の平均値ではなく、群ごとの平均値を使うことによって、小さくなった平方和です。
(追記:この「7.2」という数は、自由度で割る前なので、平均値の差を正しく反映しています。どういうことかというと、全体の平均値と群ごとの平均値の差は0.6であり、それを二乗すると0.36です。以前の回では、これが過大推定された分散と説明していました。nで割る前の値に戻すと、0.36\times20=7.2です。群ごとの平均値を使うことによって小さくなった分の平方和(ここでは7.2)は、平均値の差の2乗を正しく反映しています。ここ、重要でしたので追記します。)
逆方向から言うと、群ごとの平均値を使わずに、群ごとの平均値を違いを無視して、全体の平均値を使ってしまった時に、大きく計算され過ぎていた平方和です。
最後に考えるのは、残された「7.2」という平方和をどう扱うか、ということです。ここにも、自由度が登場するのですが、その話は次回に。

シグマくんのはなし #22

2種類の分散

自由度について話すために、まず分散には2種類ある、という話をしたいと思います。すでに学習された方はご存知でしょう。偏差の2乗の総和(=偏差平方和)を、(1) nで割った分散、(2) (n-1)で割った分散です。Excelの関数では、前者が var.p 関数、後者が var.s 関数ですね。なぜ割る数が違うかというと、使う目的が違うからです。誤解を恐れずざっくり書くと、

  • (1) の分散は、記述統計のために使う。標本データの散布度をあらわす統計量の一つ。
  • (2) の分散は、推測統計のために使う。標本データの散布度をあらわす統計量の一つでもあるし、母集団の分散(母分散)の推定量でもある。

違うのは、母集団の分散の推定、つまり、母集団の分散はこれくらいかなあ、という具体的な予測値として使うかどうか、ということです。では、この2種類の分散は、具体的にどのくらい違うのでしょうか。また、なぜ (1) の分散は推測統計のためには使わないのでしょうか。

(n-1)で割ったほうが少しだけ大きい

当然ですが、偏差平方和を(1) nで割るよりも、(2) (n-1)で割ったほうが、少しだけ大きくなりますよね。偏差平方和が90で、標本サイズが10だったとすると、(1) 90 \div 10 = 9 ですが、(2)  90 \div (10-1) = 90 \div 9 = 10 です。
そして、もっと一般的に、どれくらい違うのかについて、すでに私たちは答えを得ています。母集団の分散を、母集団の平均値を使って計算することを考えましょう。以下、母集団の分散(母分散)を\sigma^2(「シグマ二乗」と読みます)、母集団の平均値(母平均)を \mu (「ミュー」と読みます)という記号で書いていきます。
母分散の計算式は、
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n (x_i - \mu)^2
です。平均値が\bar xではなく、母平均\muになっているところが、これまでの式と違いますね。ところで、この母平均\muは、値がわかりません。標本の平均値 \bar xはそれに近い値ですが、完全に一致している保証はありません。が、具体的な値がないと計算できないので、 \muの近似値として、\bar xを使います。近似値ですから、数式上では \mu = \bar x + eと置き換えます。eの分だけ母平均からずれている、という意味ですね。もちろん、eの具体的な値がわかっているわけでもありません。だったら意味ないじゃん? とも思えますが、そうでもないんです。では、置き換えましょう。
 \displaystyle  \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2
さて、どこかで見覚えのある式ですね。そうです。「シグマくんのはなし」の第15回から第17回にかけてお話した、「平均値を丸めるとどれくらい分散はずれるのか」で考えてきた式と同じです。結局この式は、次のように変形できるのでした。
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2 = s^2 + e^2
s^2は標本データから計算した分散、e^2は前述の通り、標本平均と母平均の差eを2乗したものです。つまり、実際にどのくらいの大きさなのかはわからないけれども、母分散\sigma^2は、標本分散s^2よりも、「標本平均と母平均の差eを2乗した分だけ大きいはずだ」と推測できるのです。そして、偏差平方和を(n-1)で割ることで、その期待値が \sigma^2と一致することがわかっているのです。(この「期待値が」っていうのが、また別の意味で「分からないポイント」だったりします。でも、これに深入りすると出てこれなくなるので、書きません。ごめんなさい。)

使ってもらえないデータの立場

話を少し戻して、(1) nで割るか、(2) (n-1)で割るかについてもう少し考えましょう。標本データはn個あるのですから、nで割るのがごく自然な考え方です。それをあえて(n-1)で割るのはやはり不自然です。せっかくn個集まったデータの中の、ある1個のデータに対して、「あ、ごめん。君は今回、数に入れないから」って言っているようなものですね。「数に入れないから」って言われたデータの立場にもなってみましょう。可哀そうじゃないですか?
でも、あえて「数に入れない」って言っているのは、それなりに理由もあるのです。少々ややこしい話になるので、 x = (2,6,7)というn=3のデータで考えましょう。
平均を計算するときには、3つのデータが全部必要です。当然ですね。(2+6+7)\div3=5です。さて、問題は分散を計算するときです。
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+(7-5^2) \} \div 3
あれ、3つとも必要ですよ?
と、思いきや、ちょっと待って…と言いだすのは、実は\bar xです。「ちょっと待って。3つのうち、どれでもいいんだけど、たとえば7。7はこの式になくても、計算できる」とか言うんです。はあ?と思いませんか。もう少し、丁寧に話を聞いてみましょう。

  • 平均値 \bar xは、(2+6+7)\div3=5で計算したよね。
  • これ、変形すると、たとえば、 7 = 5 \times 3 - (2+6)って書けるよね。
  • だから、さっきの式の「7」のところを、 5 \times 3 - (2+6)って置き換えても答えは同じだよね。

置き換えて見ると、
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+( (5 \times 3 - (2+6))  -5^2) \} \div 3
うわあ、カッコが多すぎて見にくい! けれど、たしかに「7」がなくても分散を計算する式が書けてしまいます。

っていうことはさあ、僕たちって、データは確かに3つあるんだけど、「分散を計算するとき」に限っては、「実は2つ分のデータしかない」みたいに見えてるんじゃないの? (以上、 \bar xさんの談話でした)

表を書いて確かめよう

くどいようですが、表を書いて確かめましょう。

3つのデータのうち、どれを隠しても、平均値の情報があれば、隠された値は計算できてしまいます。というわけで、分散の計算に関しては、

すでに「平均値」という情報があるのだから、もとのデータは、(n-1)個あれば十分。どの値を計算に使ってもかまわないけど、任意に(n-1)個を選べば十分。

となります。この (n-1)のことを「自由度」といっています。「この個数までは、計算に使う値を自由に選んできていいよ。どれを選んでもいいよ。重要なのはその個数だよ。」ということです。
それが本当に e^2ぶんになるのかどうか、数式で確かめないと納得しない!という方は、「心理学統計法 '21」(放送大学教育振興会)の第9章などを参考に、ご自分でぜひ追求してみてください。難易度がかなり高くなるので、ここでは扱いません。(というか、書ける自信がない。)

シグマくんのはなし #21

自由度について書く前に

分散分析の話をちょっとだけ横に置いといて、自由度について書いてみます。この話、もっと早く出しておいた方がよかったと思います。それから、「分散」すなわち「偏差平方和の平均」という統計量をずっと扱っているのですが、nで割り算する前の値、すなわち「偏差平方和」のまま話を進めたほうが混乱しないのかな、とちょっと思っています。これは正直、むずかしい。という話は、著者の独り言として。

自由度=自由に値を決められる数

自由度のもともとの意味はけっこう説明がやっかいです。カイ二乗分布の話をしなくてはいけません。ですが、このブログでそこまで話を広げたくありません。(書ける自信がまったくない)なので、自由度=自由に値を決められる数、という、本質的なのか本質的でないのかよくわからない説明をそのまま流用します。
では、自由度とは、と書き進めていきたいのですが、話を進めるために、架空の設定を用いて、「記述統計」と「推測統計」について復習します。「母集団」「標本」についても復習します。まだこれらのことについて学んでいないという方は、別の入門書もあわせてお読みください。このブログでは、きわめてざっくりとしか説明いたしません。

記述統計と推測統計

記述統計と推測統計について話すために、ある架空の設定を用います。

架空の設定

次のような調査を行ったと考えてください。

ある私立大学の学生Aさんは、春先になると花粉症に悩まされるため、目薬を持ち歩いている。花粉症の人は多いと聞くが、この大学の学生で、花粉症の人はどれくらいいるのかと疑問に思い、アンケート調査を行った。学生20人から回答を得たところ、20人中14人が、自分が花粉症であると答えてくれた。このほかに、普段目薬をどれくらい使っているか、目薬を使うと目の症状(疲れ、かゆみなど)がどれくらい改善するかも尋ねている。
Aさんの通う私立大学は6000人の学生がいるが、Aさんの調査から、この大学に花粉症の学生はどれくらいいると予測できるだろうか。

(※調査方法、質問項目など、仮想データとはいえ、ツッコミどころの多い調査だと思われます。ツッコミの練習にお使いください。)

母集団と標本

この調査で言うと、母集団と標本は、

  • 母集団 :Aさんの通うある私立大学の学生6000人
  • 標本:Aさんの調査に回答した学生20人

です。「この大学に花粉症の学生はどれくらいいると予測できるだろうか」と分かりやすい書き方をしてみました。20人の標本から得られたデータを用いて、母集団6000人ではどうなのかを予測する、推測統計をしようとしています。

記述統計と推測統計

記述統計の結果が、設定の中に1つだけ記されています。「20人中14人が、自分が花粉症であると答えてくれた」がそれです。花粉症である学生の比率は、 14 \div 20 = 0.7 = 70 \%です。「標本」から得られた、花粉症である学生の「比率」という意味で、「標本比率」という言い方をします。
ここで、「花粉症の学生の比率は70%でした。以上!」までが記述統計です。標本の(ここでは20人分の)データだけを見て、それ以上広い世界の話をしないのが記述統計です。
でも、調査した学生は、標本である20人のことが知りたいのではなく、大学全体では何%かを知りたかったのですね。そこで、「標本比率」の70%という値をもとにして、「標本から得られたデータによると、花粉症の学生の比率は70%であった。よって、大学全体でも、約70%の学生が花粉症であると推測できる」などのように考えます。これが「推測統計」です。ここでは「母集団」の、花粉症である学生の「比率」、すなわち「母比率」を予測していることになりますね。
でも、ちょっとモヤっとしませんか? 「標本比率が70%だったからといって、母比率も約70%と言っているだけでしょ? 安易すぎないか?」って、思いません?
Aさんは、「一日にだいたい何回くらい目薬をさすか」も尋ねていて、「平均は2.65回」だったそうです。「標本」のデータから計算された「平均」なので、「標本平均」ですね。これをもとに、「この大学の学生は、一日平均2~3回、目薬をさしていると推測できる」などと考えるかもしれませんね。つまり、「母平均」は「2~3回」と推測したわけです。
どうでしょう? 同じようなモヤモヤがありますよね。「標本平均が2.65回だったことはいいとして、母平均が2~3って、アバウトすぎんか?」って、思いません?
標本比率とか、標本平均とか、標本のデータをもとに計算する値のことを「標本統計量」といいます。これに対して、「母比率」とか「母平均」とかは「母数」といいますね。
というわけで、この「標本統計量」について大事なことをいくつか確認しましょう。

標本統計量は母数と一致しない

大前提として、標本統計量は、母数と一致しません。(もちろん、たまたま、偶然、何の因果か、宝くじで6億円当たるくらいなものすごい奇跡の結果、一致することはあり得ます。)だって、しょせん、母集団のごく一部のデータしか見ていないのですから、ぴったり一致するはずがないでしょう。

予測する材料がこれしかないのだ

花粉症の学生の比率で考えると、標本比率は70%でしたが、母比率はぴったり70%ではありません。
ではなぜ、「母比率は70%」という予測をするかというと、予測に使える材料が、標本比率のほかにはないからです。Aさんのほかにも、同じ調査をしている人がいれば、その結果も考え合わせて予測することが可能かもしれません。が、現状、Aさんが集めた20人分のデータしかないので、これを使うしかありません。
また、「標本比率」は、標本サイズが大きくなるほど(つまりたくさんの人に調査に回答してもらうほど)、「母比率」に近い値になることがわかっています。今回は、標本サイズが20で、かなり少ないので、残念ながら母比率とのずれがやや大きいかもしれない、と考えられます。

幅を持たせると外れにくいのだ

目薬をさす回数で考えると、標本平均は2.65回でしたが、母平均は2.65回ではありません。ただし、「2~3回」という予測でしたので、母比率は「2~3」の間に入っているはずだ! くらいのことは、主張できるかもしれません。
「標本平均」も、標本サイズが大きくなるほど「母平均」に近い値になることがわかっています。やはり標本サイズが小さいのでずれが大きいかもしれない、と考えられます。そこで、ピンポイントで予測するのではなく、「こっからここまでの間にあるかな~」と幅をもたせて予測することがよく行われます。前者を点推定、後者を区間推定といいます。区間推定のためには、「標本平均」だけでなく、「標本サイズ」や「分散」も使います。
はい、やっと分散が出てきました。

では、次回以降、ここに書いた設定を用いて、自由度についてお話していきましょう。

シグマくんのはなし #20

設定の復習

2つの学習センターA、Bで、面接授業を受講していた学生10人ずつに、今学期の受講単位数をたずねたところ、次のようになりました。20人全体の平均は7.3でした。

では、前回の最後に示した手順に沿って、計算していきましょう。

平均が同じだったと仮定する

まず、2つの群を比較しても意味がない、要するに差が全くないという状況を仮定して、それぞれの群の分散を計算していきましょう。実際に計算すると、次のようになります。

赤字で注記したように、平均が等しいと仮定して、つまり、2つの群に分けても、平均は20人全体の平均とまったく同じだったと仮定して、偏差を計算しています。ですから、偏差の平均が0にはなりません。赤字の下のセルに書いてあるのが、偏差を平均したものです。
たとえばA群では、本来平均値は7.9ですが、それを7.3と仮定しているので、その差0.6が、偏差の平均値として計算されてきています。B群も同様に考えることができますね。
そして、偏差を2乗して平均した値が、枠線で囲んだセルの値です。

それぞれの群の平均を使って計算する

次に、それぞれの群の平均値を使って計算しましょう。2つの群の平均値には差があって、その差には「意味がある」んじゃないかな? と考えているのであれば、こちらのほうが正しい計算だと思えますよね。結果はこうなります。

青字で、それぞれの群の平均値を示してあります。その下の0は、偏差の平均が0になっていることを示しています。これも当然ですね。その下の枠で囲んであるセルに、偏差の2乗を平均した値、つまりそれぞれの群の分散が示されています。
では、「意味がない」と仮定した状況に比べて、どれくらい分散が小さくなっているかを見てみましょう。比較した値が、うすいオレンジ色の背景のセルに示してあります。A群B群ともに、 -0.36になっています。つまり、本来の平均値(それぞれの群の平均値)を使ったほうが、分散がそれぞれの群で -0.36小さくなっている。逆の見方をすれば、「意味がない」と仮定したほうの計算では、平均値が同じだという仮定をおいてしまったがために、分散がそれぞれの群で 0.36大きくなってしまっている。ということです。

 0.36はどこから?

では、この 0.36はどこから来たのでしょう。
シグマくんのはなし #17で、最終的に次の式を提示しました。
 \displaystyle v' = s^2 + e^2
この式のv'は、本来の平均値とはずれた値を平均値として使ってしまった時の分散、eはその「ずれの大きさ」を示しているのでした。今回の例では、平均値の「ずれの大きさ」は、0.6と-0.6で、この値は偏差の平均値として最初の表に出てきていました。これを2乗すると0.36です。最初に、平均値に差が無いと仮定したときには、分散を0.36だけ大きく計算してしまったのです。

ぼくらの平均値を返せ

しかし相変わらず、この「0.36」はどんな意味なのかは不明のままです。
たしかに、それぞれの群ごとの平均を使わずに、「平均値は同じだ、群ごとに分けて比べる意味なんかないんだ」という無理やりな仮定をおいたために、それぞれの群で0.36ずつ、分散が大きくなってしまっていた。だから、データの立場からすれば、「勝手に平均値が同じだという仮定を置いて、計算しないでよ。ちゃんと僕たちの、群ごとの平均値を使ってよ。ぼくらの平均値を返せ~!」とか思っているに違いないのです。
とはいえ、このデータにおいて、「0.36」が大きいのか小さいのか。つまり、「こんなに差があったんだぞ」と主張する意味があるほど大きなものなのかどうかは、この数字だけ見ていてもわかりません。この話をするためには、いったん分散や分散分析の話を離れて、自由度の話をしなくてはならないのです。
これまで、自由度については何も触れずに話をしてきました。分散の計算でも、常にnで割り算をしていて、「あれ、n-1で割るんじゃないの?」と思った方もおられるでしょう。次回はまず、その話から始めます。