趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

試験日に欠席して、あとから一人だけ受けるのって、いやですよね。

データが追加されたとき

前回の記事の最後に書いた、数式で説明したほうが・・・について、少し書いておきましょう。次のような設定です。

ある高校の40人のクラスで試験を実施し、1名が体調不良で欠席し、39名が試験を受けた。39人の平均点はちょうど64点であった。
後日、このとき欠席していた生徒が試験を受けたところ、68点であった。このとき、この生徒を加えた40人の平均点はいくらになるか。

それこそ、学校の試験に出そうな問題ですね。データの平均について、原稿の指導要領では小学校5年生で学習することになっていますから、小学校5年生の試験問題に使えるかもしれません。それはさておき。
念のため追記すると、何らかの事情でデータが揃わなかったとき、学校の試験などでは、成績をつける都合上、後日試験を実施することがあるかと思います。が、通常の調査では、そのようなことはしませんし、計画していなかったデータの追加をすることは研究不正とみられると思います。

平均点から合計点を計算する

さて、40人分の平均点を計算するには、40人分の合計点が必要でしょ? と考えるのが、一つの解決方法です。個人の得点はわからず、平均点だけしかわからないのですが、どうすればよいのでしょう。

上のグラフは、39人の平均点が64点になるように作成したデータです。青い棒が、一人ひとりの点数を表しています。オレンジ色の枠線は、平均点(64点)を示しています。
オレンジ色の枠より上に出ている部分は、正の偏差です。これを、オレンジ色の枠と青い棒との間の白い部分、つまり負の偏差に移動して、「平らに均して」やると、39人の合計得点はオレンジ色の枠全体の部分と同じになります。39人の合計得点を Sという文字で置き換えて数式で書くと、
 S \div 39=64
が、平均を求めている計算ですね。 \div 39の部分を移項すると(つまり両辺に39を掛けると)
 S \div 39 \times 39 = 64 \times 39, S=64 \times 39 , S=2496
となります。これに、欠席していた生徒の得点を足して40で割ると答えが出ます。
 (2496 + 68) \div 40 = 2564 \div 40 = 64.1

39人の平均との「差」だけに注目する

もう一つの解決方法は、すでに計算されている39人の平均点(64点)と、欠席していた生徒の得点(68点)との差(4点)に注目する方法です。

グラフの右端に、欠席していた生徒の分を付け加えました。オレンジ色の部分は39人の平均点×人数を表しています。
仮に、欠席していた生徒が64点だったとしたら、「平らに均された」状態が維持されるので、平均点は変化しません。が、この生徒は68点だったので、その差である「4点」の分だけ、「平らに均されていない」部分ができてしまっています(赤い棒が、オレンジの枠から4点分はみ出していますよね)。
これをもう一度「平らに均す」ためには、この、「はみ出している4点」を、40人で均等に分けてやればいいことになります。このとき、はみ出している4点を、40人で分けることに注意しましょう。新しい平均は、欠席していた生徒を加えた40人で計算する必要があるからです。
 4 \div 40 = 0.1
ということで、全員に0.1点ずつ分配すると、めでたく「平らに均す」ことができます。したがって、新しい平均は、もとの(39人での)平均よりも0.1点高くなり、 64 + 0.1 = 64.1となります。
欠席していた生徒が、39人の平均点より低い点数でも同様に考えられます。仮に60点だった場合は、はみ出しているのが「-4点」なので、同じように計算して、-0.1点を全員に分配することになります。つまり、新しい平均点は64+(-0.1)=63.9となりますね。

n が大きくなるほど、追加されたデータの影響は小さい

というわけで、n が大きくなるほど、たとえデータが追加されても、平均値の変化は少なくなります。そうして、データが追加されて無限個に近づいていくと、もう平均値はある一定の値からほとんど動かなくなります。
統計学に「確率分布の期待値」という概念がありますが、それは、上記のような考えに近いものだということができます。