レビュー『データは騙る』

読書レビューです。

データは騙る: 改竄・捏造・不正を見抜く統計学

データは騙る: 改竄・捏造・不正を見抜く統計学

邦題のイメージからは、統計学を使って不正を見抜くんや!みたいな印象を持ちますが、実際はデータの間違った使い方を指摘する側面のほうが強いです。

ちなみに原題は『Standard Deviations*1』です。邦題の『データは騙る』の方が少し上回っているかと思います。

最近の懸念

最近、成功者が「成功した人は○○している」と言うたびに「はいはい生存バイアス」と返される流れをよく見る気がします。なんとなく、思考停止の感じが出てきて嫌だなと思ったので、妥当な指摘かどうか確認したく、本書を手に取りました。

読後に冒頭の問いを振り返ると、「まあ妥当な指摘なんじゃないですかね」という結論になりました。

以下、学びになったことを記載します。

最も難解な「自己選択バイアス」

私の言葉で自己選択バイアスを説明すると、Aという選択をした人としなかった人とを比較して何かしらの差異を述べようとしたとき、実際は別の要素がその違いに影響を及ぼしているという誤解のことを指します。

本書中の例を以下に引用します。

「大学を卒業した人間は、退学した者に比べて平均で五四パーセント多く稼いでいる。したがって、卒業証書には経済的な意味がある」ここにも自己選択バイアスが見られる。大学に行くことを選択し、卒業できるように一生懸命に勉強した学生は、途中で大学を辞めた人とはさまざまな面で違ってくるのではないだろうか。

私が、なぜ難解としたかというと、実際に自己選択バイアスを見抜き、その裏側にある真因を指摘するのは難しいと思ったためです。特に、自分にとって違和感のない主張に対してはすんなりと受け入れてしまうためにさらに難しくなると思います。

自己選択バイアスに敏感になれればいいのですが、それが難しい場合にも他者の指摘を受け入れて自分の固定観念を見直せればいいなと思いました。

(参考:自己選択の説明)

自己選択バイアス(じこせんたくばいあす)とは | アンケートQ

平均への回帰

スポーツのような実力に対して、結果がばらつく場合、ある年度でトップの成績を収めた人は、その前後の年度ではそこまで優れた成績でないことが多いとのこと。

この場合、平均への回帰は、「真の実力への収束」といってもいいと思います。

読者の想定レベルが低い?

本書では、時折常識的な指摘すぎてアホかと思ってしまうことがあります。例えば、グラフについての章を取り上げます。

ここでは、「縦軸や横軸の目盛りは省略してはならない」と大真面目に書いていました。

意外とデータに対する世間のリテラシーが上がっているのか、もしくは自分の周囲だけなのか、どちらにしてもだいぶ簡単な内容だなと思いました。

常識の力、厄介さ

本文中で、常識的に考えればおかしいような主張が論文として世に出ていた事例が紹介されています。例えば、「超能力が存在する」「特定のアルファベットから始まる人は早死にする」など。

そして、筆者はそれらの主張のもととなる論文・データがおかしい理由を丁寧に*2説明しています。代表的な理由としては、自分の主張を支持するデータを抜き出したためです。

筆者は、自分の持つ常識を大事にしようと述べています。

一方で、気をつけるべきこととして、今回読んでいて正しかったのは自分の常識ですが、これが間違っていると突きつけられるときがかならず来るということがあります。

そのとき、自らの考えに固執せず、柔軟に変えられるかどうかが大事だと思います。

お役立ちの19章

本書は全19章とボリューム盛りだくさんですが、最後の19章はこれまでの振り返りになっています。自己選択バイアスや、誤ったパターン化など、重要だけど難しい概念を思い出せます。

まとめ

爆発的に増大しているデータや分析に対して、どう判断したらいいかわからなくなっている人にはいいと思います。当レビューで取り上げた以外にも、役立つ概念がたくさんあります。

*1:標準偏差

*2:若干くどいレベル