2015.07.30
データサイエンティストのスキルを徹底解剖!マシューのデータサイエンスAtoZ Vol.1

データサイエンティストのスキルを徹底解剖!マシューのデータサイエンスAtoZ Vol.1

WEB・IT業界で注目を集めている「データサイエンティスト」という職種。エン・ジャパンのイノベーションラボに所属しているマシューがデータサイエンティストに求められるスキルをお伝えします。

0 0 52 0

データサイエンティスト・マシュー

Mathieu Dumoulin

CAREER HACK読者のみなさんこんにちは。データサイエンティストやその周辺のものごとをテーマに連載することになったマシュー(Mathieu Dumoulin)です。

私はCAREER HACKを運営するエン・ジャパンのイノベーションラボという組織でデータサイエンティストとして働いています。

連載第1回目は、自己紹介も兼ねてデータサイエンティストとは一体どんな職種なのか?なぜいま多くの企業で求められているのか?についてお伝えできればと思います。

エン・ジャパン/イノベーションラボのデータサイエンティスト

エン・ジャパンのイノベーションラボとは、1年前に新しいビジネスのアイディアを作り出す目的で創設された組織です。10カ国以上のバックグラウンドを持つメンバーで構成されていて、チームの公用語は英語なんです!

データサイエンスチームのメンバーは6名で、データサイエンティスト3名、データエンジニア3名で構成されています。データサイエンスチームのミッションは、データ分析の新しい使い方を考え、開発していく事です。

私は今年2月にジョインし、マネージングデータサイエンティストとして働いています。カナダのケベックにあるLaval大学で学び、主に大量テキストの分析や機械学習の分野で仕事をしてきました。

急速に高まるデータサイエンティストのニーズ

データサイエンティストは21世紀らしい仕事であるとよく言われます。Google、Facebook、Twitterなどの企業・サービスには、全ての部分においてデータサイエンスが使われているといっても過言ではありません。

私の場合、大学でコンピュータサイエンスを学び、ソフトウェアエンジニアとして長年働いてきました。2011年に大学院に戻り修士過程に入学しましたが、その時Hadoopやビッグデータ処理は本やオンラインニュースで話題になり始めたばかりでした。私も当時から人工知能に興味を持っていましたが、実際にその領域で研究をすることはありませんでした。しかし2012年初頭に富士通でビッグデータの分析プロジェクトに参画し、それ以来人工知能やビックデータ処理の技術を使って仕事をしてきています。

このような経験が出来たのは幸運のおかげとも言えますが、何よりも自分がこのような技術を学んだり、実世界の問題に適用したりするのがとても好きだったおかげでもあると考えています。人工知能を用いたシステムはどのように作ればうまくいくのか、教えてくれるマニュアルはありません。全て自分自身で作り上げる必要があり、次に何をするか、どのようにするか、全て自分で決める必要がありました。これを楽しめたおかげで、自分の枠を広げられたんだと思います。

データサイエンティストとは?

自己紹介はここまでにして、本稿のテーマであるデータサイエンティストにフォーカスを当てていきましょう。

データサイエンティストの仕事は、データを使って、ビジネス上の問題・課題を解決する事です。分業が進んだデータ分析に成熟した企業ではデータサイエンティストはアルゴリズムのモデル作成や、問題の分析に集中することもありますが、一般的には、データサイエンティストはビジネス上のニーズを理解することから、問題を解決するためのシステムを構築するところまで、データを活用した問題解決の全ての領域に関わります。

データサイエンティストに必要なスキルという観点では、それを正確に定義することは困難です。それというのも、データサイエンティストというのは、複数の領域にまたがってスキルを持っているということに特徴があるからです。
この図式の中にある3専門領域が重なる部分にデータサイエンティストは位置し、3つの領域のどれが欠けてもデータサイエンティストとは言えません。


DataScientist_skills

1. ハッキングスキル(Hacking Skills): 実用的なプログラミング能力
2.数学と統計学の知識(Math and Statistics Knowledge):コンピュータサイエンス、数学、統計学の論理的な理解
3.豊富な専門知識(Substantive Expertise):データと分析、ビジネスニーズがどのようにつながっているかを理解するビジネススキル

機械学習、ビックデータとは何か。注目される理由とは?

とはいえ、特にデータサイエンティストが注目されるのは、機械学習やビックデータといったデータサイエンティストが扱う技術に近年注目が集まっているからでしょう。

一般的なプログラムでは、処理のパターンをすべて事前に記述し、定義しておく必要があります。これに対して機械学習を用いれば、事前に全てのケースでの動作を定義しなくても、統計的な手法を用いて学習を行うことでコンピューターを適切に動作させることができます。

例えば、システムを修正しなくてもAmazonが新しく入荷した商品をレコメンドしたり、AppleのSiriがどんなパターンの会話にも適切に返答できるのには、機械学習が使われています。

一方、ビッグデータとはその言葉通り、データがたくさんあるという状態を示しています。非常に膨大なデータなので、一般的な処理基盤では短時間でデータ処理をすることができません。例えば、その日1日分の商取引状況を表示するグラフを作成するために丸1日以上かかってしまうとしたら、ビジネスに支障をきたします。こういった問題はビッグデータの問題と言えます。

そして、ビッグデータと機械学習を組み合わせることには多くのメリットがあります。ビックデータを分析して価値を与えるのが機械学習であり、機械学習をより正確に動作させるにはビックデータが必要です。何より、ビックデータによる予測精度の向上は、そのままサービス利用率・購買率等ビジネス上の利益につながっていきます。

【次回予告】イノベーションラボのデータサイエンティストとは?

いかがでしたでしょうか。
ちなみに、エン・ジャパンのイノベーションラボでは、データサイエンスチームが主にテキスト分析や機械学習に取り組んでいます。次の記事ではイノベーションラボで実施しているプロジェクトにも触れながら、データサイエンティストの具体的な仕事内容などの詳細をご紹介しようと思います。それでは、また!


文 = 寄稿


特集記事

お問い合わせ
取材のご依頼やサイトに関する
お問い合わせはこちらから