闘鶏・東経・統計・・・
タイトルの文字は単に韻を踏んでみたかっただけです・・・(笑)
その昔、僕が中高校生のころ、ブルーバックスという本のシリーズがあった。
主に自然科学の解説&啓蒙書でありました。
その中に、『統計でウソをつく法』というのがあった。
書名が気に入って読んだ。
この本は、実際に統計を使ってウソをつくための本ではない。
いかに統計のマジックに惑わされないようにするべきか!という内容である。
今は手元には無い。
すでにその内容は覚えていないし、その本の受け売りを書くつもりもない。
しかし、この本を元に僕は同じ頃、統計学に興味を持ち、大学でもそれ関係の講座は必ず受講したものだ。
そして、本物の統計学と、世間一般で理解されている統計との違いに愕然とした記憶は鮮明に残っている。
今回から何回かに分けて、そのことを書いてみたい。
第1回:平均という名のウソ(平均は本当に平均的な傾向を表すのか?)
例として、これは全くでたらめな数値ですが、以下のようなデータについて考えてみる。
【30代男性の平均所得】年間、税込み
。横娃伊釭運諭■械娃伊釭何諭■苅娃伊釭歓諭■毅娃伊釭運諭■僑娃伊釭運諭■隠毅娃伊釭運
データ数は10人、平均は500万、となる。
「この500万という数字が30代男性の平均所得である」と結論できる。
同様に、データがこうだったらどうか。
■苅娃伊釭疑諭■僑娃伊釭疑
これも、データ数は10人、平均は500万、となる。
何となく△和電?糞いして、,脇端譴粉兇犬しませんか?
この感じは何からくるのか?
無論データのばらつきからである。
もし、平均的な30代男性の所得水準を考えるならば、平均ではなくて、モード(最頻値)を採用したほうが良いのでは、と思う。,離癲璽匹錬苅娃伊釮任后
他には、メディアン(中央値)というのもある。,離瓮妊アンは、同じく400万。
(注)モード:度数のもっとも多い値
メディアン:データを順に並べて、その順番の中央の値
つまり平均値(算術平均)では、データのばらつき具合によって、常識と異なる感じになるという例である。
このほかにも統計上重要なことに、【データ数】がある。
データ数が10人ではあまりにも少ないのである。(まあ普通なら1000人程度は必要!)
また統計を取った地域や、サンプルの選び方などの問題も内包している。
たとえば、無作為(ランダムという)に選んだ人に関しての調査であっても、
調査場所が、駅を通行する人だった場合、マイカー通勤の人は対象に入らない。
たとえば、映画館から出てくる人を対象としたなら、その時間帯に、その映画を見た人という特殊な条件下での調査だったといえる。
その映画が、やくざ映画か、ポルノ映画(古いねぇ~)か、北川景子主演作品か、によって、傾向は異なってくるのは言うまでも無い。
これから解ることは、統計は、データ数とサンプルのランダムさによって大きな影響を受けるということです。
大概の場合、統計データは、その階級(上の例で所得額の幅)と度数(調査した人数)で決まる。
幅簿刻みは、a:1000000~1999999、2000000~2999999・・・と
b:1000001~2000000、2000001~3000000でも異なってくる。
また、調査対象に該当したが、回答を得られなかった人をデータに加えるかどうかも。
あるいは回答者自身がウソを回答する場合もある。(これは判定は不能である)
とにかく正しい判断を下せるデータを採取することは、かなりの規模と労力を必要とするのだ。
ぶっちゃけ、解答してくれた人へのお礼が、ポケットテッシュ1個だけか、1000円の商品券かにも左右されるのである。
以上からいえることは、
(1)正しいデータはなかなか取ることが出来ない
(2)調査の仕方に左右される
(3)データの解釈にも何通りもある
早い話、正確な統計データなど、実際には殆ど無いといっても過言ではないということだ。
さて、第1回はどうでしたか?
理解に苦しむ点は、質問受け付けますよ・・・
その昔、僕が中高校生のころ、ブルーバックスという本のシリーズがあった。
主に自然科学の解説&啓蒙書でありました。
その中に、『統計でウソをつく法』というのがあった。
書名が気に入って読んだ。
この本は、実際に統計を使ってウソをつくための本ではない。
いかに統計のマジックに惑わされないようにするべきか!という内容である。
今は手元には無い。
すでにその内容は覚えていないし、その本の受け売りを書くつもりもない。
しかし、この本を元に僕は同じ頃、統計学に興味を持ち、大学でもそれ関係の講座は必ず受講したものだ。
そして、本物の統計学と、世間一般で理解されている統計との違いに愕然とした記憶は鮮明に残っている。
今回から何回かに分けて、そのことを書いてみたい。
第1回:平均という名のウソ(平均は本当に平均的な傾向を表すのか?)
例として、これは全くでたらめな数値ですが、以下のようなデータについて考えてみる。
【30代男性の平均所得】年間、税込み
。横娃伊釭運諭■械娃伊釭何諭■苅娃伊釭歓諭■毅娃伊釭運諭■僑娃伊釭運諭■隠毅娃伊釭運
データ数は10人、平均は500万、となる。
「この500万という数字が30代男性の平均所得である」と結論できる。
同様に、データがこうだったらどうか。
■苅娃伊釭疑諭■僑娃伊釭疑
これも、データ数は10人、平均は500万、となる。
何となく△和電?糞いして、,脇端譴粉兇犬しませんか?
この感じは何からくるのか?
無論データのばらつきからである。
もし、平均的な30代男性の所得水準を考えるならば、平均ではなくて、モード(最頻値)を採用したほうが良いのでは、と思う。,離癲璽匹錬苅娃伊釮任后
他には、メディアン(中央値)というのもある。,離瓮妊アンは、同じく400万。
(注)モード:度数のもっとも多い値
メディアン:データを順に並べて、その順番の中央の値
つまり平均値(算術平均)では、データのばらつき具合によって、常識と異なる感じになるという例である。
このほかにも統計上重要なことに、【データ数】がある。
データ数が10人ではあまりにも少ないのである。(まあ普通なら1000人程度は必要!)
また統計を取った地域や、サンプルの選び方などの問題も内包している。
たとえば、無作為(ランダムという)に選んだ人に関しての調査であっても、
調査場所が、駅を通行する人だった場合、マイカー通勤の人は対象に入らない。
たとえば、映画館から出てくる人を対象としたなら、その時間帯に、その映画を見た人という特殊な条件下での調査だったといえる。
その映画が、やくざ映画か、ポルノ映画(古いねぇ~)か、北川景子主演作品か、によって、傾向は異なってくるのは言うまでも無い。
これから解ることは、統計は、データ数とサンプルのランダムさによって大きな影響を受けるということです。
大概の場合、統計データは、その階級(上の例で所得額の幅)と度数(調査した人数)で決まる。
幅簿刻みは、a:1000000~1999999、2000000~2999999・・・と
b:1000001~2000000、2000001~3000000でも異なってくる。
また、調査対象に該当したが、回答を得られなかった人をデータに加えるかどうかも。
あるいは回答者自身がウソを回答する場合もある。(これは判定は不能である)
とにかく正しい判断を下せるデータを採取することは、かなりの規模と労力を必要とするのだ。
ぶっちゃけ、解答してくれた人へのお礼が、ポケットテッシュ1個だけか、1000円の商品券かにも左右されるのである。
以上からいえることは、
(1)正しいデータはなかなか取ることが出来ない
(2)調査の仕方に左右される
(3)データの解釈にも何通りもある
早い話、正確な統計データなど、実際には殆ど無いといっても過言ではないということだ。
さて、第1回はどうでしたか?
理解に苦しむ点は、質問受け付けますよ・・・