2歩戻ったら2.5歩進みたい

関東で働くweb developerのブログ

【読書メモ】データ分析の力 因果関係に迫る思考法

読みました。読書メモです。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

読んだきっかけ

この1月からいわゆるデータサイエンス的な仕事をすることになったので、教養と仕事を兼ねて読みました。

感想

良かったです。いや本当に。

因果関係と相関関係は違う、ということはフワッと理解していましたが、これを読んでそれぞれの輪郭がシャープになりました。

例えば、アイスクリームの広告を出したら売り上げが伸びた、という現象は因果関係と言えるか?という話が出てきます。

これ答えとしてはどちらとも言い切れなくて、その夏に気温がめっちゃ伸びてたりする可能性があるわけで、広告による売り上げの増加かは判断できないですよね。相関関係ではありますが。

例えば、ダメなケースとして、実際は広告が全く影響してなくて上述のように気温のおかげで売り上げが上がってたとしましょう。

仮にここで「この広告によってn%売り上げが増加した」と理解してしまうと、「よっしゃじゃあ来年はもっと大々的に広告を出そう!」という経営判断がなされてしまいます。

すると次の年に広告を大々的に出したはいいものの、冷夏で売り上げは伸びず大損こいた、なんてストーリーが想像できますよね。

因果関係を導くのは簡単なことではないけれど、ビジネスにおいて数字の判断というのは良くも悪くも非常に強力なので取り扱いには気を付けましょうというお話です。

こういった事例が山ほど出てきます。わかりやすいです。  

実験デザインという考え方

論文では統計データによって自分の主張を裏付けることが必要なわけですが、そのデータの集め方には様々な手法があり、それらは実験デザインと呼ばれます。

代表的なものはRCT(Randomize Controlled Test,ランダム化実験)というもので、簡単に言うと「完全にランダムに選ばれた実験対象からデータを取得する」タイプの実験のことです。この手法によって正しく取得されたデータは、採取対象となった範囲に限定すればほぼ完全にそのデータの正しさが証明されたことになります(内的妥当性と言います)。

逆に言うと他の手法では内的妥当性は完全に証明できず、「おそらくこの仮説は正しいだろう」という可能性を積み上げていくだけになります。

ここが個人的には驚きで、というのも、僕程度の統計の専門的な学習をしてこなかった一般ピーポーレベルであれば「これは疑似相関ではないか」という可能性は常に疑わなければならないと思いますが、それらを専門とする修士や博士の論文レベルでも、人為的に組み立てられた実験結果以外は100%信頼できないんだなぁと思うと、ほんとに因果関係を証明するのは難しいのだなぁと思いました。  

余談

余談になりますが、今の僕がアサインされているプロジェクトは売上の時系列分析がメインで、まだアサインされて半月ほどですが、分析を進めていると上記のように「これ疑似相関では?」というデータは無限とも言えるぐらい出てきます。

個々のデータ数はそんなに多くなくても、組み合わせて分析して、顧客の説明のためにグラフに落として…とやってるといくら時間があっても足りません。

最近難しいなぁと思うのはその時間と分析対象のバランスで、分析する前に「これは○○だから分析しない」「これは○○だから今はやらない」と行った優先順位付けを明確に行わないと、僕のようなズブズブのデータ分析素人は一瞬で消し炭になってしまいます。

いわばひっきりなしに決断を迫られるわけで、今までウォーターフォール型の末端の末端にいた指示待ち人間としては慣れない部分が多くて苦戦しています。

とはいえ一方で自分の判断力や作業効率がダイレクトにお客さんや上長からの評価につながるのでエキサイティングな環境です。まぁそもそもこのPJにアサインされた経緯が、前のPJでずっと設計の下の開発をやってたんですが、言われたものを作ってるだけなのに嫌気がさして上長に掛け合ったら「じゃあlお前やってみろ」的な感じなので、頑張って結果を出したいと思います。

…まぁ前のPJが色々とレガシー過ぎて、このままではキャリアがロックインされると感じたのも別PJに移りたがった理由の一つですが。まぁそれはこの会社を辞めることになった時にでも退職エントリとして書きたいと思います。

余談が長くなってしまいましたが、良書でした。気をつけると言ってできるものでもないですが、どういう経緯で自分はその因果を結論づけたのかは今の環境でも意識できることだと思います。やっていきましょう。