• TOP
  • BOOKS
  • 私たちの問題は、データが足りないことではなく、目の前のデータに惑わされること

私たちの問題は、データが足りないことではなく、
目の前のデータに惑わされること

データは偏る.jpg

『データは騙る』
ゲアリー・スミス 著/川添節子 訳
早川書房 2000円

- 評者

大島由起子 インフォテクノスコンサルティング株式会社
Rosic人材・組織ソリューション開発室/
人材・組織システム研究室 管理者














概要

昨今、ビッグデータを分析して事実を見つけ、科学的アプローチを取っていくことが、医療や法律、ビジネスの分野をはじめとして、様々な世界で必須となっている、という言説が巷に溢れています。しかし、データをコンピュータが計算・分析して導き出した結果は、本当にすべてが「事実」と言いきれるのでしょうか?

本書は、データの分析結果に対して、「過信」「盲信」「誤解」などが蔓延していることに危機感をおぼえたアメリカの経済学者が上梓した一冊です。そうしたリスクは、専門家と言われる人たちであっても逃れられていないことが多いと言います。著者は、豊富な事例を紹介しながら、どのように「誤解」「盲信」「曲解」が生まれていくのか、わかりやすく説明していきます。

自らが直接データを扱うことがなかったとしても、「データやグラフに基づいているから正しいのだ」との主張は、私たちの周りに数多く見受けられます。あまりに当たり前のように語られるために、その足元に潜む落とし穴が見えにくくなっていると感じます。多くのデータ分析手法や、それを支える新しい技術の良い面を享受していくためにも、現代を生き抜く者の基礎知識として読んでおいて損のない一冊となっています。

<目次>

序章
第一章  パターン、パターン、パターン
第二章  ゴミを入れれば真理(ゴスペル)が出てくる
第三章  リンゴとプルーン
第四章  おっと、失礼!
第五章  見た目の罠
第六章  常識の力
第七章  交絡因子を探る
第八章  負ける気がしないのは気のせいか
第九章  回帰
第十章  プラスマイナスゼロ
第十一章 テキサスの狙撃兵
第十二章 人生最後の先延ばし
第十三章 重大な省略
第十四章 空虚な理論に腐ったデータ
第十五章 心はもう決まっている
第十六章 理論なきデータ
第十七章 虎の子を投資するなら
第十八章 データなき理論
第十九章 納得するとき、疑うとき

お勧めのポイント

パウルという予言タコが話題になったことを覚えているでしょうか?2010年のサッカー・ワールドカップを予想して、"驚異の的中率"を挙げて話題になったタコ、です。

ドイツの水族館で暮らしていたパウルは、ドイツが対戦した13戦のうち、11戦でドイツの勝利を「予測」し、そのうち9試合でドイツが勝利を収めました。さて、タコのパウルは、本当にサッカーの試合を理解し、意思をもって予測をしたのでしょうか?

実は、タコは優れた視力と記憶力を持っているのだそうです。色は識別できませんが、明るさは見分けることができ、横長の形を好むことが解明されているとのこと。ドイツの国旗は、単にタコが本能的に好きなものだった、ということだったのです。ドイツに勝つと「予測」した国の国旗は、ドイツよりも横長の明るい形が含まれていただけ、というのがオチでした。(ちなみに、その国旗はスペインとセルビア)つまり、2つの事象には直接因果関係がないのに、その間にある要因(交絡因子といいます。この場合は国旗のデザイン)が、あたかも因果関係が成立しているように見せていた、ということです。

こうして種明かしをしてしまうと、タコが予測するなんて誰がまともに取り合うんだ?と思うかもしれませんが、当時は日本のテレビでも話題になるくらい、世界が注目していたのは事実です。そして、周りを見渡してみると、そのバカバカしさが「パウル」のようにはわかり易くないだけで、同じような構造で事実を見過ごし、わかりやすい結果に飛びついている例が溢れていることに愕然とさせられます。

例えば、

「過去2年間で、フランスを2回以上観光で訪れたアメリカ人の多くは、フランス人を不親切だと思っていない」という、アンケート結果が出たといいます。さて、フランス人は、アメリカ人観光客に対して本当に親切と言い切れるのか?これはフランスへ観光客を増やそうとする業者の戦略から生み出された結果ですが、本当にアンケートを実施しており、それを分析しているという事実が、私たちを惑わせます。(答えとからくりを知りたい方は、本書のP49~50へ)。

以下が、本書で挙げられている、私たちが知らず知らずのうちに陥っている可能性のある「落とし穴」です。

パターンの呪縛
自己選択バイアス
生存者バイアス
比較の死角
確証バイアス
計算誤差
見た目の罠
交絡因子を見落とす(無視する)
平均への回帰(過小評価/過大評価)
ファインマンの罠
省略・外れ値の誤った扱い
理論なきデータ/データなき理論

例えば、生存者バイアスの例。

第二次世界大戦中、英国空軍はドイツ軍の戦闘機の高射砲による攻撃から自国の戦闘機の機体を守るために、装甲板を取り付けることにしました。装甲板は重く、機体全体を覆うのは不可能だったので、どの部分につけるのが生還率を上げることになるのかを調査することに。そこで帰還した機体を調べると、被弾の多くが翼と機体後方に集中し、コックピットやエンジン、燃料タンクはほとんど損傷を受けていないことがわかりました。こうした分析結果からすると、翼と機体後方に装甲板を取り付けるのが最適解なのでしょうか?

答えは否です。今回調査にかかっているのは帰還した機体のみで、それらが燃料タンクやエンジン、コックピットを損傷していないということは、そこにダメージを受けた戦闘機は帰還することができなかった、ということになります。つまり、装甲板を付けるのは、穴の開いたところではなく、穴の開いていなかったところ、というのが正解です。実際にはその対応が功を奏して、帰還できる戦闘機が大幅に増えたということです。

同じようなことが、ビジネス界でも見受けられるという指摘は衝撃的です。著者は、一世を風靡した『ビジョナリーカンパニー2 飛躍の法則』の盲点をシビアに指摘しています。それは、英国の戦闘機の例と同じように、生き残った企業の共通点のみを分析して結論づけているからです。

「実際に成長した企業を見て、成長する企業を予測しても意味はない。それは予測ではなく、単に歴史をみているだけだ」

実際にそこで取り上げられた11社のうち、1社は倒産し、1社の株価は1ドル以下になっていると言います(米国での本書発行当時)。残りの9社の業績もそれほどぱっとしていません。実は、その後に発行された、あの『エクセレントカンパニー』でも同様なアプローチが取られてしまっているといいます。

では、本来どうすべきだったのか。

成功要因として考えられる特徴を論理的に整理したうえで、前もってその特徴を持つ企業と持たない企業を選び、予め決めておいた基準に従って成功の度合いを監視し、成功要因の妥当性を図る、が正解とのこと。冷静に考えてみれば、確かにその通りです。しかし、私たちは「分析結果」を盲信してしまう。

こうした例が、様々な角度からこれでもか、というくらいに挙げられていきます。何も知らなかったら、信じてしまったかもしれない。。。という事例も多く、データを扱う世界にいる身として気持ちが引き締まりました。

「データを活用しよう」「科学的アプローチに取り組む」「データサイエンティストを目指す」「データサイエンスを扱う」という人は、「データ分析が導き出した事実」と言われるものに飛びついてしまう前に、一度は目を通しておくとよいのではないでしょうか。

(2019年12月4日)

BOOKS TOP