趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #21

自由度について書く前に

分散分析の話をちょっとだけ横に置いといて、自由度について書いてみます。この話、もっと早く出しておいた方がよかったと思います。それから、「分散」すなわち「偏差平方和の平均」という統計量をずっと扱っているのですが、nで割り算する前の値、すなわち「偏差平方和」のまま話を進めたほうが混乱しないのかな、とちょっと思っています。これは正直、むずかしい。という話は、著者の独り言として。

自由度=自由に値を決められる数

自由度のもともとの意味はけっこう説明がやっかいです。カイ二乗分布の話をしなくてはいけません。ですが、このブログでそこまで話を広げたくありません。(書ける自信がまったくない)なので、自由度=自由に値を決められる数、という、本質的なのか本質的でないのかよくわからない説明をそのまま流用します。
では、自由度とは、と書き進めていきたいのですが、話を進めるために、架空の設定を用いて、「記述統計」と「推測統計」について復習します。「母集団」「標本」についても復習します。まだこれらのことについて学んでいないという方は、別の入門書もあわせてお読みください。このブログでは、きわめてざっくりとしか説明いたしません。

記述統計と推測統計

記述統計と推測統計について話すために、ある架空の設定を用います。

架空の設定

次のような調査を行ったと考えてください。

ある私立大学の学生Aさんは、春先になると花粉症に悩まされるため、目薬を持ち歩いている。花粉症の人は多いと聞くが、この大学の学生で、花粉症の人はどれくらいいるのかと疑問に思い、アンケート調査を行った。学生20人から回答を得たところ、20人中14人が、自分が花粉症であると答えてくれた。このほかに、普段目薬をどれくらい使っているか、目薬を使うと目の症状(疲れ、かゆみなど)がどれくらい改善するかも尋ねている。
Aさんの通う私立大学は6000人の学生がいるが、Aさんの調査から、この大学に花粉症の学生はどれくらいいると予測できるだろうか。

(※調査方法、質問項目など、仮想データとはいえ、ツッコミどころの多い調査だと思われます。ツッコミの練習にお使いください。)

母集団と標本

この調査で言うと、母集団と標本は、

  • 母集団 :Aさんの通うある私立大学の学生6000人
  • 標本:Aさんの調査に回答した学生20人

です。「この大学に花粉症の学生はどれくらいいると予測できるだろうか」と分かりやすい書き方をしてみました。20人の標本から得られたデータを用いて、母集団6000人ではどうなのかを予測する、推測統計をしようとしています。

記述統計と推測統計

記述統計の結果が、設定の中に1つだけ記されています。「20人中14人が、自分が花粉症であると答えてくれた」がそれです。花粉症である学生の比率は、 14 \div 20 = 0.7 = 70 \%です。「標本」から得られた、花粉症である学生の「比率」という意味で、「標本比率」という言い方をします。
ここで、「花粉症の学生の比率は70%でした。以上!」までが記述統計です。標本の(ここでは20人分の)データだけを見て、それ以上広い世界の話をしないのが記述統計です。
でも、調査した学生は、標本である20人のことが知りたいのではなく、大学全体では何%かを知りたかったのですね。そこで、「標本比率」の70%という値をもとにして、「標本から得られたデータによると、花粉症の学生の比率は70%であった。よって、大学全体でも、約70%の学生が花粉症であると推測できる」などのように考えます。これが「推測統計」です。ここでは「母集団」の、花粉症である学生の「比率」、すなわち「母比率」を予測していることになりますね。
でも、ちょっとモヤっとしませんか? 「標本比率が70%だったからといって、母比率も約70%と言っているだけでしょ? 安易すぎないか?」って、思いません?
Aさんは、「一日にだいたい何回くらい目薬をさすか」も尋ねていて、「平均は2.65回」だったそうです。「標本」のデータから計算された「平均」なので、「標本平均」ですね。これをもとに、「この大学の学生は、一日平均2~3回、目薬をさしていると推測できる」などと考えるかもしれませんね。つまり、「母平均」は「2~3回」と推測したわけです。
どうでしょう? 同じようなモヤモヤがありますよね。「標本平均が2.65回だったことはいいとして、母平均が2~3って、アバウトすぎんか?」って、思いません?
標本比率とか、標本平均とか、標本のデータをもとに計算する値のことを「標本統計量」といいます。これに対して、「母比率」とか「母平均」とかは「母数」といいますね。
というわけで、この「標本統計量」について大事なことをいくつか確認しましょう。

標本統計量は母数と一致しない

大前提として、標本統計量は、母数と一致しません。(もちろん、たまたま、偶然、何の因果か、宝くじで6億円当たるくらいなものすごい奇跡の結果、一致することはあり得ます。)だって、しょせん、母集団のごく一部のデータしか見ていないのですから、ぴったり一致するはずがないでしょう。

予測する材料がこれしかないのだ

花粉症の学生の比率で考えると、標本比率は70%でしたが、母比率はぴったり70%ではありません。
ではなぜ、「母比率は70%」という予測をするかというと、予測に使える材料が、標本比率のほかにはないからです。Aさんのほかにも、同じ調査をしている人がいれば、その結果も考え合わせて予測することが可能かもしれません。が、現状、Aさんが集めた20人分のデータしかないので、これを使うしかありません。
また、「標本比率」は、標本サイズが大きくなるほど(つまりたくさんの人に調査に回答してもらうほど)、「母比率」に近い値になることがわかっています。今回は、標本サイズが20で、かなり少ないので、残念ながら母比率とのずれがやや大きいかもしれない、と考えられます。

幅を持たせると外れにくいのだ

目薬をさす回数で考えると、標本平均は2.65回でしたが、母平均は2.65回ではありません。ただし、「2~3回」という予測でしたので、母比率は「2~3」の間に入っているはずだ! くらいのことは、主張できるかもしれません。
「標本平均」も、標本サイズが大きくなるほど「母平均」に近い値になることがわかっています。やはり標本サイズが小さいのでずれが大きいかもしれない、と考えられます。そこで、ピンポイントで予測するのではなく、「こっからここまでの間にあるかな~」と幅をもたせて予測することがよく行われます。前者を点推定、後者を区間推定といいます。区間推定のためには、「標本平均」だけでなく、「標本サイズ」や「分散」も使います。
はい、やっと分散が出てきました。

では、次回以降、ここに書いた設定を用いて、自由度についてお話していきましょう。