分析方法を統合的に理解するために

統合的って？

分析方法の「統合的」理解という言い方は、私が考えたものではなく、南風原先生のご著書によっています。以下に書くのは、私なりの敷衍です。南風原先生の名著はこちら。
www.hanmoto.com

仮想データの分析

仮想データを分析しながら、「統合的」の意味するところについて整理してみます。今回使用するデータは、記事末尾にファイルでおいておきます。ご自分で分析されたい方はダウンロードしてください。変数は、x、y、catの3つで、前2つは連続変数、catのみカテゴリ変数です。
まずは注目したい変数の統計量から。注目するのは変数yです。n=90、平均=53.63、分散=140.03です。箱ひげ図を描いてみます。赤線は平均値です。

はい。これがどうしたの？　ってなりますよね。

もし3つのグループが混在したデータだったら

では、これがもし、3つのグループが混在したデータだったらどうなるでしょう。各グループはどれも n=30 で、平均値はそれぞれ、 54.43 、 56.90 、 49.57 となっています。箱ひげ図を描いてみます。破線は各グループの平均値です。

3つのグループで平均値が異なるので、これは統計的に差があるのか？　という疑問が生じます。これを検証するのが一元配置分散分析でした。グループを説明変数にして、1要因3水準の分散分析をすると、結果はこうなります。

Analysis of Variance Table
Response: y
               Df  Sum Sq Mean Sq F value  Pr(>F)  
as.factor(cat)  2   835.5  417.73  3.1256 0.04888 *
Residuals      87 11627.4  133.65

それほど大きいF値ではないので、ぎりぎり有意になるだけですが、どこかのグループ間で、有意差があるという結果でした。これは何をしているかというと、
全体の平均を使った時の平方和よりも、グループごとの平均を使った時の平方和の方が、明らかに小さくて、それは偶然ではなく統計的に有意なものだった。
ということだと理解できます。言葉を変えると、
最初の箱ひげ図のように、平均値は赤い水平線一本だけ、と理解するのではなく、二つ目の箱ひげ図のように、高さの違う3本の線の組合せとして平均値を理解する方がいいよ。
ということを示唆しているわけです。

もしもう一つの変数と相関があったなら

では、カテゴリではなく、もう一つの連続変数xと相関があったらどうでしょう。変数xは、平均=41.17、分散=112.39です。yとの相関を調べてみると、r=0.55、散布図はこうなりました。横軸がx、縦軸がyです。プロットで見ても、明らかに直線的な関係がありそうに見えますね。

ここでは回帰分析を使います。xが1大きいと、yがどれくらい大きいのかを分析します（因果関係の検証ではない）。xを説明変数、yを目的変数として単回帰分析をするとこうなりました。

Call:
lm(formula = y ~ x, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-26.0081  -5.9129  -0.6716   6.2640  24.2844 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 28.13078    4.20632   6.688 2.01e-09 ***
x            0.61950    0.09898   6.259 1.38e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.9 on 88 degrees of freedom
Multiple R-squared:  0.308,	Adjusted R-squared:  0.3001 
F-statistic: 39.17 on 1 and 88 DF,  p-value: 1.375e-08

こちらはかなり大きいF値が出ていますね。xが1大きいと、yは平均的に0.62ほど大きいようです。散布図に回帰直線を引いてみましょう。

では、これは何をしているか、ということですが。
回帰分析のときに、残差の平方和が最小になるように、「最小二乗法」という計算方法を用いたことを思い出しましょう。これは、yの観測値と予測値（回帰直線）との差の2乗の総和が、最も小さくなるように、回帰直線の切片や傾きを決める方法でした。
でも、よく考えてみましょう。yの観測値と予測値、ではなく、yの観測値とyの平均値との差の2乗和…ていうのは、要するに分散の計算です。違うのは、yの平均値が水平線として描かれるのに対して、回帰直線が「傾きのある直線」として描かれるということです。これはつまり、
分散の計算するときの平均値を、水平線ではなく、散布図になるべくぴったり合うような「傾きのある直線」にして考えたほうがいいよ。そのほうが、分散が小さくなるからね。
というふうに理解できます。

でも、なぜ分散を小さくする方がいいのでしょう。分散が大きいことは、それだけ情報量が多いことを示すのではなかったでしょうか？
それは、単に計算された分散の中には、個人差以外のものが含まれているからです。
小学校1年生と6年生とでは身長が違います。これは個人差だけでなく、年齢差があるからです。年齢差の部分を取り除いてやらないと（つまり分散分析）、重要な情報である個人差が明確になりません。
身長が高い子どもの方が一般に体重も重いです。これは個人差だけでなく、身長という指標で測られる「体の大きさ」に差があるからです。体の大きさを一定にすることはできませんから、回帰分析という方法で統計的に調整し、個人差だけを取り出そうとしているのです。
そうです。分散の内、どこまでが系統誤差で、どこからが偶然誤差（個人差）なのかを区別したいのです。このような理解をすることで、異なる分析方法の中にある共通の考え方に気づくことができると思います。
ずいぶんややこしい話になりました。いずれもう少し、かみ砕いて書けるようになればいいなと思うのですが。