趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

偏差値ではなく「偏差」のはなし

気を取り直して「偏差」のはなし

「偏差」という語から、大学入試の「偏差値」を思い出すので好きではない、という話を聞いたことがあります。その昔、広末涼子が入学するという話が広まったら、その大学の入試の偏差値が急に上がったとか。あの「偏差値」は、そういうどうしようもないことで上がったり下がったりするもので、何を計算根拠にしているのかは、進学塾ごとに違っていたりするのだ、という噂も聞いたことがあります。どうでもいいんですけど。

「偏差」の意味は

さしあたり辞書を引いてみます。いずれも電子辞書版です。

へんさ【偏差】一定の標準となる数値・位置・方向などから、偏りずれること。その度合い。また、平均値からのかたより。偏倚(へんい)。(広辞苑第六版)
へんさ【偏差】〔集団に属する個個のものに付随する数量について〕平均(標準)の数量からのかたより。(新明解国語辞典第七版)

数値だけでなく、位置や方向のずれに対しても使われることが広辞苑の語釈からわかりますが、数学的な意味としては、「標準となる数値」からのずれであり、その「標準」は「平均」(相加平均=算術平均と解釈します)であるとしています。
統計学の教科書や参考書も、ほぼこれにならった意味を書いています。

すべてのデータから平均値を減算することで,「平均値との差」という指標に変換します。 これを平均からの偏差と呼びますが,本書では単に偏差(deviation)と呼びます。(清水(2021)「心理学統計法」放送大学教育振興会 p.46)
各測定値と任意の定数(c)との差( X_i-c)を定数cからの偏差(deviation)というが, 平均値は,(略)偏差の総和を0にする定数である。森・吉田(1990)「データ解析テクニカルブック」 北大路書房、p.14)

面倒だがこういうのもある

ということで、観測値から平均値(相加平均値)を減じたものを、このブログでも今後、単に「偏差」と呼ぶことにしますが、ここで使っている「平均値」は、「標準」となる値の、代表選手?みたいな位置づけで選ばれているのであって、他の代表値を使ったら間違いであるとまではいえません。つまり、「中央値からの偏差」「最頻値からの偏差」も、いちおう「偏差」と名乗ることはできそうです。
どうしてこんなややこしいことを書いているかというと、英語版Wikipediaでは、こういうのが登場するからです。思い切りオタクな感じの話題ですが、それなりに味わい深いものがあります。
en.wikipedia.org
リンクした記事では、標準となる値が平均値、中央値、最頻値の場合について、偏差の絶対値の平均がどうなるかという計算式や、標準正規分布のときに、「平均値からの偏差の絶対値の平均」(mean absolute deviation around the mean、ややこしいでしょ!)が、標準偏差と比較してどのくらいの大きさになるか、等、ひじょーーにマニアックな話が書かれています。こういうのがお好きな方はどうぞお楽しみください。

偏差の総和は0になる

話を戻します。以下、単に「偏差」と書くときは、平均値からの偏差です。「平均値」も、何も注記しない時は「相加平均=算術平均」の値です。
森・吉田(1990)にあったように、偏差の総和は0になります。このことは説明不要かと思いますが、「平均」の辞書的意味と重ね合わせて読み解くとそれなりに面白いので(かつ、子どもに教える時に役立ちそうな感じがするので)、あらためて書くことにします(忘れなければ)。
では、平均値として、偽の値を用いた時は、偏差の総和はどのようになるでしょう。
あえて平均値ではない値を「標準」とすることに、ほとんど意味はないのですが、この計算は、分散の意味を考えるうえで重要だと思うのです。これも、数式やグラフなどを示しながら、次回以降に書きたいと思います。