趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #03

出席番号は必要か

復習です。第1回では、総和記号「シグマくん」は、足し算の筆算と考えると分かりやすいと思うよ、という話をしました。そして第2回では、足す数がもっと増えてきたときのことなどを考えて、足す数たちの集まりに、名前を付けて、その名前を使って書くといいよ、という話をしました。こんなふうにです。

誤解がないように注意を繰り返しておくと、本来、このような書き方をするわけではありません。統計を少し学んだ方は目にしたことがあるでしょうが、統計学の教科書では次のように書いてあります。
 \displaystyle \sum_{i=1}^n x_i
「幸福度の得点」の部分が、「x_i」になっていて、それを書く位置も、シグマくんの口の中ではなくて、右側になっています。この「書く位置の問題」は、私があえて口の中にしているだけで、本当は違うのになあ、と思いながらやっていることです。でも、口の中に書いたほうが、シグマくんが数の集まりを咀嚼しようとしている感じがよく出るのではないかと思うので、こうしているのです。xという文字を使っていないのは、説明の分かりやすさを優先しているからです。
でも、シグマくんの上下にくっついている、「 i=1」や「n」は気になりませんか? 「x_i」の添え字(xの右下にくっついている小さい字)も気になりますね。
まず「i」は、(この例では)「幸福度の得点」という集まりに入っている数たちの「出席番号」と考えてください。「1つ目の数、おいで~」と呼んだら、1つ目の「6」が、「2つ目の数、おいで~」と呼んだら、2つ目の「7」が、という具合に、順番に呼ばれて、シグマくんに飲み込まれて、合計されるのですね。
次に「n」は、「幸福度の得点」という集まりに入っている数たちの「合計人数」(いや、人数は「人」の数だな。これは、数がいくつあるかということだから「数」の数、ということは数数? どうでもいいけどね)です。
シグマくんの上下にある「 i=1」と「n」はセットになっていて、両方合わせて「1番目からn番目の数まで」という意味になります。

呼ばれない数はあるのか

でも、私はこれをあえて書いていません。なぜかと言うと、シグマくんに目をつけたり足をつけたりしたいからです。
嘘です。違います。
差し当たり必要ないからです。だって、数たちの集まりに入っている数は、全員呼ばれるに決まっている、つまり、全部合計されるに決まっているからです。

でも、データには外れ値とか、合計したくない数があるでしょ?

そうですね。もちろん、合計したくない値が混じっていることもあります。あまりにも大きすぎたり小さすぎたりする、いわゆる「外れ値」は、検討したうえで計算から除外することがありますね。たまたま答えてもらえなかった、というのも混じっていることがあります。
「答えてくれていない場所」には、「.」とか、「N.A.」とか、特別な記号を使います。下手に「0」とか、「-1」とか、数字にしてしまうと、合計されてしまいますからね。数字でないものが数たちの集まりに入っていた時には、それを計算から除外して、人数(「数」数?)にも入れません。
これは「外れ値」にしようと判断した場合は、そのデータを除外したデータセットを作って、その新しいデータセットで合計するようにします。意味わかりますでしょうか?

  • 数たちの集まり=「 3,4,5,NA,1,2
    • 合計は、3+4+5+1+2=15で、平均は15 \div 5 = 3です。「NA」の人もいるから6で割る、というふうにはしないのが普通です。
  • 数たちの集まり=「3,4,5,1200,1,2
    • 1200」を外れ値と考えて、「外れ値を除いた集まり=「3,4,5,1,2」」として合計や平均を計算します。このとき、もとの「数たちの集まり」、つまり、外れ値とした「1200」が残ったままの「数たちの集まり」は、そのまま残しておきます。そうしておかないと、「1200」が外れ値として除外されたのか、もともとそんなデータはなかったのかが区別できないからです。

じゃあ、今後一切、「i=1」とか書かなくていい?

そう! とか言いたいんですけど、誰が見ても間違えないように書くことはやはり重要なので、最終的には、シグマくんを数学の教科書と同じ記号で書いていきますし、添え字もちゃんと書いていきます。
でも、当面、この連続記事の中では、基本的には、添え字は書きません。
「基本的には」と書いたのは、添え字があったほうがいい場面、というか、ないと混乱しそうな場面もあるからです。その時には、ここでは添え字を使って書きますよ~ということをお知らせすると思います(忘れなければ)。

というわけで、今回は、添え字「i=1」とかは基本的には書きません、ということ。その理由として、「数たちの集まり」に入っている数は、基本的には全部足すのだから、あえて出席番号をつける必要はないから、ということをお話しました。
繰り返しになりますが、この記事で書いている「シグマくん」の書き方は、説明をわかりやすくするための、差し当たりの工夫であり、数学の教科書で使われている書き方とは異なっている部分があります、ということを書き添えておきます。