趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散が0のデータセットから情報は得られない

小杉(2023)の第3章と第4章は、統計環境Rについて解説されているので、ここは飛ばして、第5章「記述統計量」にすすみます。いよいよ本番という感じですね。

記述統計量について、いろいろと書いておきたいことはあるのですが、忘れないうちに書いておきたいことがあります。「散らばりの指標」(散布度の指標)を計算する材料の一つに「偏差」があります。これを二乗して総和すると「偏差平方和(偏差二乗和)」で、さらにnで割れば分散です。
この分散という指標は、計算はできるのですが、それがいったい何なの? というのを、学習を始めた当時の私はあまり理解できませんでした。小杉(2023)の次の文章を読んでください。

分散はデータの散らばりを表現しています。分散が大きい方がデータの散らばりが大きい,というわけですね。逆に分散がゼロになると,そのデータには散らばりがない,ということです。(中略)分散が 0 のデータセットには,個々の違いがないので情報が得られないのです。(p.83)

うん、その通りだね、分散が0のデータなんかゴミだよ。そう思われるなら、この先を読む必要はありません。
小杉先生はここで、分散が「大きい」ことに情報としての意味がある、と言っているのです。いえ、違います。分散が0であるようなデータセットからは情報が得られないのです。逆は必ずしも真ならずですが、あえて言い換えると最初の分になります。データセットの「分散の大きさ」に情報がある。
なぜでしょう。中略した部分を引用してみます。

たとえばクラスの全員がテストで 100点を取ると,分散は 0 です。この時は「どういう勉強をすれば成績が上がるか」とか「成績が低い人をどうサポートすれば良いか」という知見を得ることができません。(p.83 先ほどの「中略」部分の一部)

なるほど、と頭では納得します。
しかし、と貧弱な私の頭脳は反応します。「全員が100点なら、少なくとも大多数が100点なら、そのほうが幸せなのではないのか」? 「テスト」という文脈がこのような反応を呼び起こすのでしょう。確かに。全員がよく理解している方が望ましいことはよくわかる。少なくとも学校教育の現場ではそうだろう。
しかし。
現実には、人々の能力は多様なので、特定の「テスト」という単一の尺度で測ったときには、明らかに分散が大きくなる。そして、そのことは良い事でも悪い事でもないのだ。当然存在する「個人差」が、そこで可視化されたに過ぎない。
これに対して、「あることが苦手であることが可視化されても、少しも嬉しくない」「苦手なことについてテストされるのは嫌いだ」という感想もあるだろう。その通りだ。
だが、ふたたび、人々の能力は多様なので、テストの種類を変えると、さきほどの結果(得点が高い人と低い人がいて、分散が大きい)が逆転することがある。つまり、得点が高かった人が今度は低く、低かった人が今度は高く、相変わらず分散は大きい。だとしたら、高い得点を活かせる場所に、それぞれの人々をおくことが、共同体全体の幸福度を高めるのではないか。
あるいは。
得点の低い人たちに対して、何らかの手段や方法で得点を高くすることができ、それが共同体の幸福度を高めることにつながるのなら、あえて分散の大きいテストをすることにも意味があるのではないか。

内田樹先生の「寝ながら学べる構造主義」を久しぶりに読んでいたら、こんな文章に出会いました。

他人と同じことをすれば「善」、他人と違うことをしたら「悪」。それが畜群道徳のただ一つの基準です。このような畜群のあり方は、私たちの時代の大衆の存在様態をみごとに言い当てています。(内田 樹. 寝ながら学べる構造主義 (文春新書) (p.43). 文藝春秋. Kindle 版. )

他人と同じことをして「全員一致」すれば、全員が同じ意見になる。それはつまり、散らばりがない、分散が0の状態です。分散が小さいほうが、全員が100点の方がいいよね、と素直に思っていた私は、典型的な「畜群」だったのでしょう。畜群万歳。が、そのことを直ちに否定する必要があるかどうかは疑問です。もう少し、内田先生に学びます。

少なくとも、心理統計の世界では、分散の大きさにデータセットの価値があります。なぜ差が生じているのか、それは小さくした方が良い差であり、差を小さくする方法が期待される性質のものなのか。あるいは、それは人々を不幸にする差であり、何らかの介入によって支援したり解消を目指したりすることが望まれるものなのか。そうした考察への入口が散布度の指標だと言えるかもしれません。