データサイエンティストの仕事を深堀り!エン・ジャパン・イノベーションラボに所属しているマシューがデータサイエンティストになる方法、求められるスキル、そして仕事内容をお伝えします。
▼連載第1回はこちら
データサイエンティストのスキルを徹底解剖!マシューのデータサイエンスAtoZ Vol.1
こんにちは。イノベーションラボのマシューです。連載の第2回目はデータサイエンティストに求められる具体的なスキルと仕事内容をイノベーションラボの事例も挙げながらご紹介したいと思います。
データサイエンティストではない方も、WEB・IT業界に身をおいているならば、データサイエンスは「21世紀の仕事だ」と様々なメディアで目にする機会が数多くあるのではないでしょうか。
それもそのはず。人々や企業、政府が大量のデータを生み出し、保持するようになったいま、その膨大なデータから「意味を見出す能力」を持つ人材に対してのニーズは間違いなく高まっています。
「完璧なデータサイエンティスト」に求められるスキルはあまりに広範かつ高度なので、ユニコーンと同じくらい珍しい(あるいは存在しないもの)と言われることもあるんです。
実際は、データサイエンティストの仕事には(プログラミング)技術、数学と統計学、そしてビジネスの知識が組み合わされた形で必要とされ、時にはそのすべてが求められる場合もあります。
ここであらためてデータサイエンティストに求められるスキルを細かく見てみましょう。
またデータサイエンティストに求められるスキルは、企業やチームの大きさによって異なってきます。
大きな企業では通常、データサイエンティストは、他のデータサイエンティストやエンジニアとチームを組んで仕事に取り組みます。このような場合では、たいてい、物理学、数学、統計学、もしくはコンピューターサイエンスに関する深い専門性を持つ博士号レベルのデータサイエンティストの方が好まれます。
一方で、まだ小さな会社、もしくはデータサイエンスチームが自身が小さかったり新しい場合、個人個人がより広範なスキルと、深い専門知識持っていることが求められるでしょう。
ここからは私が所属しているイノベーションラボのデータサイエンスチームを例に話を進めさせてください。
まだできて1年足らずのチームですが、データサイエンスチームの全メンバー(データサイエンティスト、エンジニア)は、コンピューターサイエンスや関連領域の修士号を取得しています。
修士レベルのスキルはわかりやすく言えば、学術論文を調べ、手法を理解すること、難しい問題を最初から最後まで首尾よく解決できること。チームではこんなタスクを個々人でこなすことができる人物を高く評価しています。
・難しい問題を理解すること
・難しい問題を具体的なタスクに落とし込むこと
・具体化したタスクに優先順位をつけられること
イノベーションラボのデータサイエンスチームは不満買取センター(※1)というちょっと奇妙な名前のWEBサービスの製品戦略策定からバックエンドの分析プログラム実装まで、あらゆる面で直接関わってきました。
不満買取センターでは企業のカスタマサービスやマーケティング担当者が、製品や企業、業界に関する不満データを探せるtoB向けサービスも同時に開発・運用しています。
このサービスを実現させるために、私たちデータサイエンスチームは、すべての投稿生データを分析できる、高度な日本語文章分析のインフラを実装しました。この種のデータの大部分は短い文、そしてカテゴリ化されていない、最も分析が難しい種類のデータです。この問題の解決に使われるスキルは、自然言語処理とPythonが中心となっています。
データサイエンスチームはビジネスチームと毎日密接に連携しています。データに関するレポートを作るには、ビジネスサイドのニーズを理解し、データからわかりやすいレポートを作る方法を把握する必要があるからです。
また、私たちは機械学習の技術を中心に、いくつかのプロジェクトを進めています。例えば、不適切な投稿を自動的に削除したり、不満の買取金額を機械的に決定するものです。このプログラムは、JavaとPython、応用機械学習や自然言語処理のスキルが求められます。加えて、レポートとデータ作成のためにR、Python、Java、Excelを毎日使っています。
(※1)消費者が製品やサービスに感じる「不満」を1個最大25円で買い取り、あらゆる不満の収集・分析を通じて、企業や社会による不満の解決を支援するサービス
プロのデータサイエンティストは何よりも、様々なデータから本当のビジネス価値を得るために、多岐にわたるスキルを効果的かつ同時に発揮する必要があります。
では、どうすればデータサイエンティストになれるのでしょうか?私の考えでは、読者のタイプによって3種類のルートがあると思います。。
・ソフトウェアエンジニアの方…まずは基礎統計を勉強しなおし、それから機械学習を勉強するといいでしょう。最良の入門はAndrewNg氏がCourseraで無料で教えている講座です(英語のみ)。そして、Scikit-learnと呼ばれるPythonの機械学習ライブラリーを学び、それからKaggleで見られる実際のビジネス問題に関する知識を応用するのがいいでしょう。
・数学か統計学の大学院生の方…RかSAS、もしくはその両方の知識があると、無限のチャンスがあるでしょう。そして、汎用的にプログラミング言語を使用できるようになるためにPythonのスキルを習得することをオススメします。またSQLの知識は必要不可欠です。機械学習やデータマイニング、レコメンドエンジン、といったテーマに関するコンピューターサイエンスの論文は、実務応用への理解をきっと促してくれるはずです。
・ExcelとSQLのスキルがあるビジネスアナリストの方…手始めにRの学習とデータマイニングの本を読むことがスタートラインになるかもしれません。エンジニアリングのバックグラウンドがなくとも、あなたのビジネスの理解と、他のビジネスパーソンとのコミュニケーション能力、経験は大きな財産になります。
【参考文献】
Rによるデータサイエンス-データ解析の基礎から最新手法まで
Data Mining: Concepts and Techniques, Third Edition
いかがでしたか?データサイエンティストになるには、複数のスキルを組み合わせることが近道です。もしデータサイエンティストを目指すのであれば、まずは現在持っているスキルセットを見なおしてみるところからはじめてみましょう。
次回は「データサイエンティスト(チーム)のこれから」というテーマで、データサイエンティストがこれからより一層求められてくる分野や新しく提示できる価値などをご紹介したいと思います。それではまた!
文 = 寄稿
4月から新社会人となるみなさんに、仕事にとって大切なこと、役立つ体験談などをお届けします。どんなに活躍している人もはじめはみんな新人。新たなスタートラインに立つ時、壁にぶつかったとき、ぜひこれらの記事を参考にしてみてください!
経営者たちの「現在に至るまでの困難=ハードシングス」をテーマにした連載特集。HARD THINGS STORY(リーダーたちの迷いと決断)と題し、経営者たちが経験したさまざまな壁、困難、そして試練に迫ります。
Notionナシでは生きられない!そんなNotionを愛する人々、チームのケースをお届け。