趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散公式から学んだこと(1)

分散ってわかりにくい

学び始めのころ

私が統計学を学び始めたのは2014年、放送大学に入学して2学期目のことでした。当時開講されていた「心理統計法 '11」は、数学に苦手意識を持ったままなんとか大学入試を潜り抜け、その後は小学校の算数とだけつきあってきた私にとって、たいそう難しいものでした。この記号(\sumとか\int)は何? と心から思いました。

平均値や中央値はわかるけど…

どの入門講義でもそうなのでしょうが、最初の方は簡単なんです(当たり前か)。平均値がどうの、中央値がどうのというところは、難なくわかる。でも、分散になってくると、とたんにわかりません。
いえ、計算方法はわかるんです。丁寧に説明されていますから、こうして、ああして、こうすれば答えは出ます。で、それが何? という感じなんですね。「散らばりの指標」とか言われても、ねえ。それからさらに平方根を取って、標準偏差だ!って言っているわけでしょ。それって何? オイシイの? とまではいきませんけど、やっぱり分かりにくい。
計算して答えは出るんだけどね。いや、だからこそ、といった方がいいのかな。

分散公式という代物

計算したことがある方は分かると思いますが、分散を、定義式通りに計算するのはけっこう骨が折れます。観測値や平均値がぜんぶ整数のときはそれほどでもないんです。でも、平均値は整数になってくれることのほうが珍しいわけで。
観測値: x = \{ 1, 2, 4, 6, 8\}、平均:(1+2+4+6+8) \div 5 = 21 \div 5 = 4.2
とかなった日には、「えーー!どうして平均がぴったり4になる問題にしてくれないの~~!」とか思うのです。だって、公式どおりに、
(1 - 4.2)^2 = (-3.2)^2 = 10.24
とかやっていた日には、発狂しそうになりますから。え? しない?
そういう思いに答えて、かどうかは知りませんが、教科書には「分散公式」というのが書かれています。ソフトウェアで計算する時代にこんなものはもう無用の長物みたいになっているんですが、これがなんとも分かりにくい。見たことあるでしょうか、これです。

  • 分散公式 \displaystyle V(x) = \frac1n \sum_{i=1}^n x_i^2 - \bar x^2

定義式はこっちです。

  • 分散定義式 \displaystyle V(x) = \frac1n \sum_{i=1}^n  (x_i - \bar x)^2

どうですか、このビミョーな違い。私はこれを見ながら、頭がクラクラしたことを覚えています。

中学校で習ったことと違う!

もう少し冷静になれた頃に、もう一度よーく見てみると、妙なことに気づいたんです。「え! 中学校で習ったことと違うぞ!」
どういうことかといいますと、中学校で習った式の展開は、こうでした。
 (a - b)^2 = a^2 - 2ab + b^2
ですよね。あってますよね。分散定義式と、分散公式が等しいのだ、といっている割には、変です。中学校で習った式の中の、ax_i に、b\bar x に相当するのですから、当然、
 (x_i - \bar x)^2 = x_i^2 - 2 x_i \bar x + \bar x^2
ってなるはずでしょう?
おかしい。真ん中の項(- 2 x_i \bar x )は何処に行ったの? 最後の項(+ \bar x^2)は、プラスのはずなのに、どうして分散公式ではマイナスになっているの? 先生、これ、間違ってませんか!?
とか言いたくなるのです。でも、他の参考書を見ても同じように書いてある。
ということで、私はかなりの間、この式に悩まされていたのでした。

ある日

しかーし。
いろいろと参考書をあさっていた私は、ついに、分散定義式と分散公式がちゃんと一致することを、定義式を展開していくとちゃんと分散公式に変形することを、ついに理解したのです。
でもその話は、次の回で。(ひっぱる)