クロス表における「偏差」
今回は、クロス表における「偏差」について考えます。
最初に断っておくと、前回も書いたように、クロス表で「偏差」という言葉はほぼ使われません。が、以下に書くような性質は、データから平均値を引いた値としての「偏差」と近いものであると私は思っているので、以下、「クロス表における「偏差」」というふうに書いていきます。何かほかに、適切な表現がないかなと思っております。
度数から期待度数を引く
通常の偏差は、データ(観測値)から、それらの平均値を引く、という方法で算出されていました。式で書くと、 ですね。
クロス表における「偏差」と私が言っているものは、クロス表に書かれている度数から、期待度数を引く、という方法で算出するものです。期待度数は、多くの教科書で と書かれています。この は、Expected (期待値の「期待」の意)ですね。統計学では、誤差も一般に (これは error の意)と書かれるので、できれば別の字を使いたいのですが、これもいい案がうかびませんので、 を使っていきます。
クロス表における「偏差」を式で表すと、 となります。 で表される期待度数は、クロス表のすべての度数を使って計算され、「意味のない」状況、言い換えると、「まったく偏りのない状況」を表していると考えれば、平均値とよくにた立ち位置の値です。が、平均値と異なるのは、期待度数はセルごとに異なった値になるということですね。もちろん、表の構造によってたまたま同じ値が現れることはあるのですけど。
クロス表における「偏差」を計算してみる
では、実際に、クロス表における偏差を計算してみましょう。次の表を使います。
- 一番左の「x」と書かれている表が度数を表しています。表頭や表側、「計」の部分は省いてあります。度数の合計が表の右下に書かれています。ここでは35です。
- 表の大きさは「2行×2列」、自由度は1です。ここでは、黄色く塗ったセルの度数を変えながら、他の表の変化を観察していきます。今は、期待度数より1小さい「8」になっています。
- 次の「e」と書かれている表が期待度数を表しています。行の合計、列の合計が「x」の表と一致することを確かめてください。
- その右、「d」と書かれている表が、度数から期待度数を引いたもの、つまり、クロス表における「偏差」です。色の濃いセルは、「x」の自由度の位置に対応するセルです。
「合計すると0」があちこちに現われる
さて、ここまでで注目したいのは、次のことです。
- クロス表における「偏差」を、行ごとに合計すると、どの行も0になる。
- クロス表における「偏差」を、列ごとに合計すると、どの列も0になる。
最初の「x」の表は、黄色いセルの度数を、「9」から「8」に変えたものでした。度数を1減らしので、クロス表における「偏差」は「-1」になり、それを調整するように、右と下のセルには「1」が、対角線上のセルには「-1」が現れています。かならずこうなるのか? を検証するために、度数を少し変えてみます。
黄色いセルの度数を、「7」に変えたものです。度数をさらに1減らしたぶん、クロス表における「偏差」は「-2」になり、行合計、列合計が0になるように、「2」と「-2」が並んでいます。
同様に、黄色いセルを「6」にすると、「-3」と「3」が並びます。クロス表における「偏差」の行合計、列合計はやはり0です。
ここまでをまとめると
このように、「2行×2列」のクロス表における「偏差」は、
(1) 4つのセルで絶対値が等しくなり、
(2) 対角線にあるセル同士で符号が同じになり、
(3) 隣り合うセル同士で符号が逆になります。つまり、
(4) 1つのセルの「偏差」が決まると、行合計や列合計が0になるように、他のセルの「偏差」も決まってしまいます。
ただし、今は「2行×2列」のクロス表に限定しています。表が大きくなると、だんだん複雑になってきます。
「偏差」は合計すると0になることは、もう何度も話してきましたが、クロス表における「偏差」でも、同様のことが起きていたのですね。
黄色いセルの度数を増やしても同じなのか
ここまでは、黄色いセルの度数を、期待度数より1小さくする、さらに1小さくする、という方法で、表の数値を変えながら、クロス表における「偏差」がどのように変化するかを見てきました。じゃあ、黄色いセルの度数を、期待度数より大きくしていっても同じなのか? と気になるかもしれません。
結果は、同じになります。1つだけ例を示しておきます。
黄色いセルの度数が、期待度数より「2」大きいので、クロス表における「偏差」は「2」になっていて、行合計、列合計はやはり0になっていますね。
偏差を二乗する
さて、分散を計算するときに、偏差を二乗する必要があることを以前に書きました。同じ理由から、クロス表における「偏差」も二乗してすべて正の値にします。これが、「期待度数」と食い違っている度合いを表す指標(を計算するための値)になるわけですね。これまで示してきた画像では、「d^2」(dの2乗という意味です)で表しています。4つのセルですべて同じ値になっていますね。どうしてかというと、クロス表における「偏差」は、(2行2列の表では、)どのセルも絶対値が等しかったからです。
ところで、分散を計算するときには、「偏差」を二乗して合計し、それをn、あるいは自由度で割ったのでした。クロス表における「偏差」の2乗は、このあとどうすればいいのでしょうか?
次回はそれについて考えます。