趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

「複数回答」集計の落とし穴

「アンケート」ウォッチング 2024年1月9日

今回のネタはこちらです。格安SIMへの乗り換えに満足している人が多くて、その理由の第一位は「料金」だよ! という、「当たり前やん!」という感じの調査です。
でも、「複数回答」をどう集計するのかについて、とてもわかりやすい事例なので、そのことについて書いてみようと思います。
www.atpress.ne.jp

複数回答とは

説明する必要もないと思いますが、いちおう確認しますと、この調査の2つ目の質問がそれにあたります。

Q2:利用中の格安SIMを選んだ理由・決め手はなんですか?(複数回答可)

回答者に示した質問文がそのまま書かれているのだろうと推測します。こういう姿勢は大事です。できれば、グラフのタイトルにもこれを使用してほしいと思います。
が。
とても重要なことが抜け落ちています。それは、選択数の合計が書かれていないことです。

選択数の合計って何?

この調査の回答者数は500人です。単一選択の問いであれば、回答数の合計も当然500です。しかし、複数選択の問いであれば、たとえば一人が2つ、3つ選択することになりますから、選択された数を合計すると500よりも多くなります。これを一人一人示すのは表示が煩雑になりますから、通常、「みんな、平均するとどれくらい選択しているの?」という数を目安として示すことがあります。
たとえば、次のような表気がそれにあたります。

これは、平成30年度の「生涯学習に関する世論調査」(内閣府)の図表から引用したものです。「M.T.=166.5%」と書かれているのは、Multiple Totalの略だそうで、「回答数の合計を回答者数(n)で割った比率」です( 生涯学習に関する世論調査 本報告書を読む際の注意 -内閣府 )。つまり、一人当たり平均して1.6~1.7個選択していることになりますね。複数選択の割には、あまり多くを選択していない感じがします。

「料金」に満足しているのは500人中何人?

ところが、この格安SIMの調査ではそれが書かれていません。だから、「格安SIMを選んだ理由」で「料金」が49.5%となっていますが、それが500人中何人なのかがわからないのです。
え? 49.5%だから、500×0.495=247.5。だから247人か248人でしょ?
ちがいます!!!
円グラフに示されている比率の合計は100%です。複数回答なのですから、合計は500より多いはずです。でも、M.T.が書かれていませんから、合計はいくつかわかりません。ですから、いったい何人が「料金」を選んでいるかわからないのです。
しかし、これは、「約9割のユーザーが“満足”」というタイトルを掲げて調査結果を公開する側としては、わざわざ損になっているのではありませんか? だって、この円グラフからは、「料金」に満足している人は半分しかいない、とも読み取れるからです。本当ですか?

シミュレーションしてみよう

このことを、「Q4:利用中の格安SIMについて感じるデメリットはなんですか?(複数回答可)」を例にもう少し深掘りしましょう。
このグラフでは、「特になし」が27.9%となっています。複数回答ですが、M.T.が示されていませんから、これが何人なのかはわかりません。しかし、デメリットが特にない人が約3割ということは、約7割の人はデメリットを感じている、というように解釈できてしまいませんか? それって、調査する側からすると、わざわざ不本意な結果を示しているのではありませんか?
ここで、簡単なシミュレーションをしてみましょう。
10人に調査に参加してもらい、「不満1」~「不満4」、「不満なし」、という5つの選択肢から、複数選択で回答してもらいます。黄色いセルの選択肢を選択したと仮定します。

不満がない人は、当然「不満なし」だけを選択します。不満がある人は、複数選択する可能性が高いです。(格安SIMアンケートの例だと、速度が出ないし容量が少ない、とかです。)回答者は10人ですが、選択された数は17でした。
さて、赤い数字は、選択された数=17で割った割合です。合計すると100%になります。そうすると、不満なしの人は30%くらいしかいないように見えてしまいます。でも、実際には10人中5人、つまり回答者の50%は不満なしなのです。ですから、青い数字のように、回答者数=10で割って割合を出すのが実感と合っているのです。当然、青い数字を合計しても100%にはなりません。青い数字の合計は170%です。つまり、「M.T.=170%」ということです。格安SIMにデメリットを感じなかった人は、実際には500人中半数くらいいた可能性があることが分かると思います。

まとめ

複数選択の回答を、この格安SIMのアンケートのように誤って集計する例は、ときどき見られます。しかし、割合を表すなら回答者数で割らないと、実感をともなった数値にはなりません。
回答総数で割るのは、意見の分布を見るのによいのだ、とか、割合は合計したら100%になるようにしなくてはいけないのだ、などの意見があるようですが、調査で知りたいことの本質はそこではないと思います。
格安SIMの調査で言えば、デメリットを感じる人と感じない人はそれぞれ何%か。感じている人はどんなデメリットを感じているのか、ということだろうと推測します。であれば、まず、「デメリットを感じる人と感じない人はそれぞれ何%か」をきちんと出すべきだと思います。