前回のお話し
almondfish.hatenablog.com
試行回数を変えてみた
前回は、二項分布の「試行回数」というパラメータを3にしてみて、どんな記録ができるかをためしてみました。その結果、
- ベルヌーイ家のぷるぷる君を3人集めて、共通見解を教えてもらった時の記録
- 試行回数3のときの二項分布の乱数
これが、同じ分布になったのでした。つまり、
- ベルヌーイ家のぷるぷる君2人の共通見解を聞いているときには、「試行回数=2」の二項分布、つまり二項家(ただしN=2)のぷるぷるーるが守られているように見えている。
- ベルヌーイ家のぷるぷる君3人の共通見解を聞いているときには、「試行回数=3」の二項分布、つまり二項家(ただしN=3)のぷるぷるーるが守られているように見えている。
二項家は、ベルヌーイ家のきょうだいたちが集まって構成しているのですが、どうやら、たくさんのきょうだいが集まっているみたいです。
試行回数をもっと増やしてみる
では、試行回数を4,5,6と増やしてみた結果を見てみましょう。乱数のつくり方は、分析ツールの「乱数発生」で、二項分布の「試行回数」を変えています。どんな乱数ができているかは省略して、集計した結果だけを画像で貼っておくことにします。
前回、試行回数が2のときと3のときとを比べて、3のときのほうが、「横幅が少し広がって、傾きが滑らかになっている」ことに気づきました。さらに試行回数を6まで広げてみると、「傾きが滑らかになっている」とはいえないようです。むしろ、傾き(というより、棒どうしの「高さ」の違い)が少ない部分と多い部分があるように見えます。
たとえば、試行回数4では、0と1の違い、3と4の違いは比較的大きく、1と2の違い、2と3の違いはそれに比べて小さくなっています。試行回数6では、1と2の違い、4と5の違いが、それ以外の場所よりも大きくなっています。
なぜこのような違いが生まれるのでしょうか?
そもそも、AくんBくんの共通見解を二項分布のひとつと理解した時、次のような「ぷるぷるーる」があると仮定していました。
二項分布(例)
- 公正なコインを2枚投げたとき、表が出る枚数、つまり、0,1,2のどれかの値をとる
- コインを2枚投げたときの表とうらの出方は、つぎの4通りある。
- 表が0枚のときは、うら・うら(これは1通りしかない)
- 表が1枚のときは、うら・表、または、表・うら(ここだけ2通りある!)
- 表が2枚のときは、表・表(これも1通りしかない)
- したがって、0,1,2は、だいたい1:2:1の比率で出る。
このときは、AくんBくんの二人だけだったので、つまり試行回数2だったので、これでよかったのですが、試行回数6のときは、表やうらの出方はもっとたくさんあるはずです。つまり、「表が出る枚数」がどんな比率で出るのかは、試行回数(≒コインの枚数=ベルヌーイぷるぷる君の人数)によって変わってくるのです。
こ、これはもしかして、数学の時間にやたらと書かされた、あの「樹形図」にもう一回取り組まなくてはいけないのかああああ!
はい、その通りです。でも、私たちにはExcelという強い味方があります。樹形図はさらっと無視して(!)、二項分布、つまり二項家のぷるぷるーるについて、理解を深めていくことにしましょう。
今日の統計用語
- 比率
- 割合と比率は、よく似た意味で使われます。実際、広辞苑で「比率」を調べると、「二つ以上の数量を比較したときの割合」とか書いてあって、「割合」を調べると、「物と物との比。歩合。比率」とか書いてあります。役に立ちませんね。「割合」といった場合、全体を1(100%)としたときの部分の大きさを小数(百分率)で示します。「アルコール25%の焼酎」は、全体(ひと瓶とかひとパックとか)のうち25%の量がアルコールですよと言っています。これは割合です。全体を1(100%)と考えています。一方、「しょうゆと料理酒とみりんを、1:1:1で味付けしよう」というのは比率です。
このように区別するのがわかりやすいのですが、統計用語では「母比率」という用語があって、母集団のうちある条件(あるいは属性)に該当する人の「割合」を「母比率」といったりします。言葉の意味としては、「母集団」を1と考えているのだから「割合」なのですが、用語としては「母比率」で、「母割合」とはいわない。「標本比率」というけれど「標本割合」とはいわない。ああ、ややこしい。
さしあたり、長いものには巻かれておきましょう、という結論です。