「人間」のデータサイエンティストが必要になる理由

みなさんこんにちは。
今日は「人間」のデータサイエンティストが必要になる理由について解説してみたいと思います。

世の中には便利なデータ分析ツールが色々あります。
苦労しなくても集計作業をしてくれたり、綺麗なグラフを描いてくれたり、統計的な指標値を出してくれたりします。

「こういったツールがあれば、人間のデータサイエンティストは必要ないのでは?」と思われたことはありませんか。
人を雇うと会社として労務費や教育費や様々な負担が増えます。しかしツールならそういったものもかからない。だからツールの方がお手軽では?

ところが、実際はそうでもありません。
その理由と背景について簡単に紹介してみたいと思います。

データ分析の便利ツール

まず先に、データ分析の便利ツールについて紹介します。
データ分析について調べていると、データをインプットすると自動で分析結果を出してくれる便利ツールなどを目にすることが多いと思います。
例えばTableauというツールはBI(Business Intelligence)ツールと呼ばれているものの一種で、データを入力すると見栄えの良い綺麗なグラフを自動的に作成してくれたりします。

画像1
Tableau社Webページより抜粋
https://www.tableau.com/ja-jp/products/desktop

Tableau Desktopデータビジュアライゼーションソフトウェアの Tableau Desktop を使用すれば、数分で、データを見て理解できるよwww.tableau.com

マーケティング用途に使われることが多いDomoというツールでも、可視化やレポーティングなどが自在にできる機能が備わっています。

画像2
Domo Webページより抜粋
https://www.domo.com/jp/business-intelligence

BIツールだけでは分析は進まない

このように便利なBIツールがあれば、データ分析はいつでも誰でも簡単に出来るため、データ分析初心者でも扱うことができ、専門のデータサイエンティストは必要ない、と考えられがちです。

ところが、実はBIツールだけでは分析は進まないのです。
なぜでしょうか。
これにはいくつか理由があります。

理由1:データを読み解くことが出来ない

まずひとつめに、データを読み解くことが出来ない、という理由があります。ここで言う「読み解く」とは数字から示唆を得るということです。

具体的に簡単な事例で紹介しましょう。
例えば分かりやすく、あなたはコンビニエンスストアの店長だとしましょう。BIツールを使えば、今月の売上は235万円です、といったことがすぐに分かるでしょう。便利ですね。

ところが、その数字がどのようなことを指し示しているのか、というのはBIツールからは読み取れません。なぜならば、BIツールはあなたが何を知りたいのかを知らないからです。データ分析の目的を知らないわけです。

例えば、あなたの目的が今月の売上と先月の売上と昨年の同月の売上との比較をしたい、ということだとします。そうすると、先月の売上と昨年の同月の売上を別に確認しなければなりません。
この程度であればBIツールの機能として実装できるかもしれませんが、もう少し複雑になって、昨年同月の売上から今月の売上がどれぐらい成長したかをカテゴリー別(飲料、食品、日用品、etc…)に分類してみたいという場合は、また別に操作をしなければなりません。

このように、何と何を比較して、どのような示唆を得たいのか、ということをデータサイエンティスト、つまり人間が定義して、BIツールを使いこなす必要があるのです。

理由2:データから施策を立案出来ない

2つ目の理由として、データから施策を立案出来ない、ということが挙げられます。これもコンビニエンスストアの事例で説明してみましょう。

例えば理由1で述べたようなことから、昨年同月と今月の売上を比較した結果、昨年同月よりも売上が3%減少していたとします。大変ですね。

この3%の減少というのはBIツール上で計算できるかもしれません。
ですが、この結果何をすればよいのか?放っておいても良いのか、何か対策を打たないとマズいことになるのか?対策を打ったとして費用対効果はあるのか?といった課題に対しては、BIツールは何も答えてくれません。

これらの課題に対しては、人間、つまりデータサイエンティストが課題を基にして示唆を得て施策を立案しなければならないのです。

理由3:異常値や外れ値などの扱いが出来ない

そして3つ目の理由。これは意外と忘れられがちなのですが重要な点です。それは、BIツールだけでは異常値や外れ値などの扱いが出来ない、ということです。

異常値や外れ値とは、英語ではどちらもoutlierと表現されます。データを取得した際に、明らかに他と傾向が異なったり、大きく値が違っていたりするものを言います。

明らかに他と傾向が異なるのであれば、BIツールでも分かるのでは?そう思われることもあるでしょう。事実、BIツールでも「外れ値」というものを表示する機能はあります。ところが、問題はもう少し複雑です。

同じくコンビニエンスストアの事例でみてみましょう。売上額が以下のようだったとします。

2018年8月:214万円
2019年8月:221万円
2020年8月:125万円
2021年8月:208万円
2022年8月:235万円

パッと見ると、2020年だけ明らかに売上額が下がっているように見えます。一方で、2020年を除くと年々売上額が上昇傾向にあるようです。
では、2020年は異常値(外れ値)であると認識して省いて考えてしまって良いのでしょうか?

ご存じの通り2020年は世界的なパンデミックによって通常とは異なる状況になりました。ところが、その状況は2022年8月の現在に至っても、形を変えて残り続けています。だとしたら、その状況も含めて分析をしないと正しい今後の姿が予想できないはずです。つまり、2020年のデータを異常値(外れ値)として見なすのは危険であるということです。

この判断はBIツールには決してできません。なぜならば、BIツールは(教え込まない限り)2020年に世界的に何が起こったのか知りませんので、そのことを考慮してデータ分析するといったことはしてくれないのです。

実は重要な人間の仕事

3つの理由を挙げて「人間のデータサイエンティスト」が必要な理由を紹介してみましたが、いかがだったでしょうか。

なお、「人間の」というところが重要なのであって、上記のような業務を果たせるスキルを持っていればデータサイエンティストという肩書でなくても構いません。ビジネスのドメイン知識に精通した方でも良いのです。

実はAI社会と言われる昨今だからこそ、人間の重要性は再認識されています。
世の中には「●●会計」といった会計ソフトがたくさんありますが、それを読み解く人間の会計士がいなくなることは(いまのところ)ありません。
将棋はAI(ソフト)が最強になりつつありますが、人間の棋士はいなくなりません。
人間には人間にしか出来ない仕事があるのです。

データサイエンティストは人間としてとても重要な仕事を担っています。
AIやツールやソフトウェアの性質や限界を理解しながら、うまく共存していきましょう