趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #25

たてよこシグマくん

最後のパートでは、ひときわごつい、この形についてお話していきます。
 \displaystyle \sum_{j=1}^m \sum_{i=1}^n x_{ij}
なんですか、これは…思わず絶句しそうな方、どうぞお付き合いください。見た目がいっそうごついので、以下、しばらくの間は、これを「たてよこシグマくん」と呼んでいきます。「たてよこ」なので、本当はこんな風に書きたいのですが、数式でこんなふうに書けるのかなあ? どなたかご存じありませんか?

総和記号(シグマくん)が2つありまして、ひとつが縦方向担当のシグマくん、もうひとつが横方向担当のシグマくんです。数式だとどっちがどっち? とか聞かないでくださいね。結局どっちでも同じなので。

2次元の表について考える

この「親子シグマくん」を使うのは、次のような表について考えるときです。いつものように、架空の設定で数値を入れています。

この表では、すでに横方向の計や縦方向の計、総合計が計算されていますが、これらを計算するときの式として、最初のごつい数式、「たてよこシグマくん」が使われます。・・・まだちょっと説明不足ですよね。
実際にシグマくんに動いてもらう前に、ちょっと用語の整理をしましょう。

用語の整理

さっき、「横方向の計」「縦方向の計」という言い方をしましたが、これらは、「行ごとの合計」「列ごとの合計」と呼ぶことにします。「行」というのは、横方向にならんでいる数たちのことで、「列」というのは、縦方向に並んでいる数たちのことです。「総合計」はそのまま「総合計」とします。また、数たちが入っている1つ1つのマスを「セル」と呼びます。

表を見ながら、ここからここまでを合計したらこの数になる、というふうに確かめてみてくださいね。

表の大きさの表現

表の大きさは、「行」の数と「列」数を使って表します。最初に例示した表は、「4行3列」の表です。
え!どうして「4行3列」なの? 「6行5列」じゃないの?
そう思った方のために付け加えると、表の大きさの数え方は、2つの考え方があります。

●第一の考え方
一番上の行と一番左の列は、数たちに名前をつけている部分ですね。一番左の列を「表側(ひょうそく)」といいますが、ここは、それぞれの行に並んでいる数たちに名前をつけています。順に、「北海道、関東、関西、九州」で、4つありますから、「4行」です。(このとき「計」は数えません)
同様に、一番上の行を「表頭(ひょうとう)」といいますが、ここには、それぞれの列に並んでいる数たちに名前をつけています。順に、「しょうゆ、とんこつ、みそ」で、3つありますから、「3列」です。(やはり「計」はかぞえませんよ。)

●第二の考え方
実際に200人の人に、「地域」と「すきな味」をカードに書いてもらった場面を想像してください。そして、同じことが書かれているカードを束にして、並べましょう。地域が「北海道」の人は200人いましたが、そのうち、「しょうゆ」と書いた人(つまり、カードに「北海道/しょうゆ」と書いた人ですね)は10人なので、10枚のカードを束ねて左上におきました。「北海道/とんこつ」と書いた人は5人なので、これをそのとなりに、「北海道/みそ」と書いた人は35人なので、これをその右におきました。これを繰り返していくと、カードの山が12個できますね。横方向のカードの集まり(つまり同じ地域)が4行分、縦方向のカードの集まり(つまり同じ味)が3列分です。ですから、「4行3列」です。

表の大きさは重要です

どうでしょう。表の大きさについて理解できましたか。こんなことは統計分析に関係ないと思われるかもしれませんが、いえいえどうして。重要なんです。どこで重要かというと、表の「自由度」を考える時に重要なんです。でも、その話はもう少し後にします。

x_{ij}に2つの添え字があるのは

ここまでくると、x_{ij}に、2つの添え字(i, j)がある理由もわかってきませんか?
たとえば、下の方にある「42」という数は、「九州」という数たちのあつまり(4行目)にも入っていますし、「とんこつ」という数たちのあつまり(2列目)にも入っています。なので、「42」という数は、x_{42}のように表します。添え字の「42」は、「4行目の集まりにも入っているし、2列目の集まりにも入っているよ」という意味ですね。
(注:添え字にi,jが使われているのは、それほど大きな理由はなく、単に「慣習」なのだと理解してよいと思います。また、ここでは添え字の「42」を、「4行目、2列目」と説明していますが、同じ意味でx_{24}、つまり、「2列目、4行目」と書いても間違いではありません。そういう教科書に出会ったら、あ、この人のやり方は、列の方先に数えるやり方なんだな、と理解しましょう。)

表独特の添え字「x_{i.}

見えますか? 添え字が「i.」になっています。いえ、書き間違いではありません。ついでに目の錯覚でもありません。この・(ドット)の添え字は、こういう2次元の表なんかに使われる独特の表記で、「合計」を表しています。何の合計でしょう?
本来、x_{i.}の、ドットの部分には「j」が入っているはずでした。なのでこの場合は、x_{i1},x_{i2},...というふうに、 j の部分の背番号がふつうは変わるんだけど、それ、全部集めて合計しといてください、という意味になります。表を見ながら、もう少し具体的に書きましょう。

表の1行目だけ抜き出しました。1行目なので、最初の添え字はみんな「1」ですね。「10」は1列目にあるので2つ目の添え字も「1」、したがって記号で書くと  x_{11} です。次の「5」は2列目にあるので2つ目の添え字が「2」で x_{12}、次の「36」は3列目なので x_{13} です。これらを合計した「51」は、1行目の、「すべての列を足し合わせた」ものなので、2つ目の添え字を「・」(ドット)にして、 x_{1.} と書くのです。
列方向も同じように考えます。好きな列だけ抜き出して、考えてみてください。
というわけで、応用問題として x_{..} というのをお見せしましょう。なんだかわかるでしょうか?

1つ目の添え字も、2つ目の添え字も、どちらも「・」になっているので、要するに「全部の合計」という意味になります。そうです。最初に書いたあのごつい数式は、 x_{..}を求めるための式だったのですね。
では、次回から、計算の仕方を分解していきましょう。