趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

データは図にする。データ取得前であっても。

データは図にする

小杉(2023)の第2章で、とても印象的なのは、データの可視化の重要性について繰り返し強調されていることです。ちょっと引用しましょう。

分析の第一歩は可視化 (visualization) です。データは図にするのが基本中の基本です。みなさんもこれから演習や研究の一環でさまざまなデータを取ると思いますが,データは図にするのが基本です。これを忘れないでください。大事なことなので2度いいました。p.26

取ったデータは最初に必ず図にしてください。さまざまな角度から図にしてください。なんならまだ取っていないデータであっても,このような図が得られるはずだとか,このような図を得るためのデータが欲しいと考えるようになってください。p.26

とくに2つ目の引用は面白いですね。単にデータ分析の方法論を学ぶための教科書ではなくて、これから先、「自分でデータをとってそれを分析できるようになるために、今学んでいるのだ」という意識を持たせようという意図がよく読み取れる箇所です。

2群の平均値の差の検定

というわけで、ちょっとやってみましょう。2群の平均値の差の検定をしたいと考えたとします。要するに、t検定(Welch検定)ですね。

  • 統制群(x0)に対して、何か介入した実験群(x1)の方が得点が高い
  • 従来の方法(x0)よりも、新しい方法(x1)の方が効果が高い
  • 特に方法を指定しない群(x0)に比べて、方法を指定した群(x1)の方が成績が良い。

みたいな仮説になります。方法や介入の具体的な例については、これまた様々考えられますね。これについて、次のような図が得られれば、研究者の希望通りの結果になりそうです。

ところでこの図は?

次のような図が得られれば、と簡単に書いてますが、統計の学習を始めたばかりの人にとって、この図はそれなりに難しいのではないかと思います。
棒グラフが何を意味しているかは、まあわかるとして、棒の上にくっついている「ひげ」みたいなやつは何なのでしょう。どうやってこの「ひげ」みたいなやつの長さを計算するのでしょう。そして、どうやって描くのでしょう。
このグラフで描いているのは「標準誤差」です。標準誤差ではなく信頼区間で描く方法もあります。いずれにしても、そこにたどり着くためには、「分散」を、そして分散の計算のもとになる「偏差」を理解しなくてはいけない。統計好きとしては、このつながり(偏差ー分散ー標準偏差ー標準誤差ー信頼区間)がけっこうアツいのです。が、統計苦手な人、勉強し始めたばかりの人にとっては、用語の並びを見ただけでげんなりすることでしょう。私もかつてはそうでした。
ということで、次からは「偏差」についてあれこれ書いていこうと思います。