ぷるぷる君の日常 1-7
10000回やってみた
前回のお話し
almondfish.hatenablog.com
前回、「10000回分くらいあると素敵です」なんて書きましたから、やってみました。Excelの表をぜんぶのせると大変なことになりますから、一部だけ画像でのせておきましょう。
前回書いたように、=randbetween(0,1)を入力して、ひたすら100行×100列分コピーして、10000個の変身記録をつくりました。ちなみに、パソコンで乱数をつかってデータをつくって、それを使って分析の練習をすることを一般に数値シミュレーションとかいったりします。あと、乱数といっていますが、正しくは疑似乱数といって、乱数をつくるプログラムがあるんですね。
せっかくなので、以前勉強していた教科書から少し引用しておきましょう。
コンピュータの場合には計算によって求めるため、ある規則に従っており厳密には乱数ではない。このような計算によって得られる乱数に近い数列を擬似乱数(pseudo-random number)と呼ぶが、多くの場合はこのような数値も単に乱数と呼んでいる。与えられた区間内に一様に分布する一様乱数(uniform random number)と正規分布に従う正規乱数(normal random number)などがある。一様乱数の列を生成する方法として線形合同法(linear congruential method)がある。
(櫻井鉄也 (2014) 数値の処理と数値解析 放送大学教育振興会 p.20)
また、次のページの詳細な解説があります。かなり詳細なので、時間のあるときにどうぞ。
www.nct9.ne.jp
さて、結果です。まずは最初の方だけ。

なんだ5列分しかないじゃないか、と早合点しないでくださいね。列記号「R」と「DJ」の間を非表示にしていて、ちゃんと100列分作ってあります。で、「DK」列は、1行目の100個の記録のうち、「1」が何個あったかを数えています。「DL」列は、同じように「0」が何個あったかを数えています。ぴったり50個にはなかなかなりません。差が大きい時には65個と35個というときもあります(9行目)。
こんなふうに、「たった100回」だと、「ほんとうに0と1が同じくらいなのか?」と疑いたくなる記録ができてしまうのですね。じゃあ10000回なら、ぴったり5000回と5000回になるのか? 楽しみですね。見てみましょう。

はい、残念ながらそううまい具合にはいきません。5041回と4959回でした。「なに、1のほうが41回も多いじゃないか。ぜんぜん差が小さくなったように見えないぞ!」などと考えるのは早計です。
- 100回のうち「1」が65回:「1」のほうが15回多い。
- 10000回のうち「1」が5041回:「1」のほうが41回多い。
こうして、「何回多いか」という観点で比べると、「15回多い」よりも「41回多い」ほうが、「すげえ差がある」と思ってしまいますが、それは早計です。回数の違いが、「100回のうち」なのか「10000回のうち」なのかを考慮していないからです。こういうときに、割合が役立ちます。
- 100回のうち「1」が65回:全体(100回)の、65%が「1」
- 10000回のうち「1」が5041回:全体(10000回)の、50.41%が「1」
どちらがより、「1と0が同じくらい」に近いか明白ですね。
今日の統計用語
- 乱数 random number
- とくに規則性のない数の並びのことを、乱数と言います。サイコロをふって、出た目の数を記録していくと、乱数列ができます。同じ数が続くこともあるし、ある数だけなかなかでないこともあります。「もう10回連続して1が出ていない! そろそろ出ないとおかしい!」というのは人間の思い込みで、乱数はそんな人間の期待や希望には、まったく忖度しないのです。だって、考えてもみてください。サイコロが、「あ、このごろ1が出てないなあ、そろそろ出さないと、この人怒り出すかもしれないなあ、どうしようかなあ…」とか考えていたら、そっちの方が気味が悪いと思いません?