データサイエンティスト

著者プロフィール

坂本登史文: 大阪大学理学部物理学科卒業。京都大学大学院理学研究科地球惑星科学専攻修了。某情報システム関連会社にて、会計システム構築・運用等に従事。2012年株式会社ディー・エヌ・エー入社。数本のソーシャルゲーム分析担当を経て、ブラウザソーシャルゲームの分析リーダーを務める。現在は、freee株式会社にて社内唯一のデータサイエンティストとして活躍中。

第1章：データサイエンティストの業務内容

#データサイエンティスト

データサイエンティストとは？

データサイエンティストと聞くとどんな人を思い浮かべるでしょうか？多くの方が、データやグラフを見ながら難しい顔で統計学を考えている人を思い浮かべたのではないでしょうか。

実はデータサイエンティストの仕事はそれだけではありません。一般的には「データを活用して事業の利益に貢献する人」全般をデータサイエンティストと呼ぶことが多いです。図1にデータを活用するためのデータの流れを示しました。データ活用という言葉には、単に分析業務だけでなく、分析基盤環境の構築・運用が含まれます。

図1:データを活用するためのデータの流れ

実際には、データ活用にかかわる業務内容を幅広く担当されている方もおれば、冒頭で思い浮かべていただいたような、分析に特化したスペシャリストの方もいらっしゃいます。そのため、データ活用担当者は、データサイエンティスト、グロースハッカー、データアナリスト、データマイニングエンジニアなど様々な名称で呼ばれているのが現状です。(本連載ではデータサイエンティストで統一します。) このような理由から、データ分析業種への転職を考える際は、募集企業が求めるスキルや人材要件を事前に理解しておくことが大変重要です。
それでは早速データ活用に関わる業務を紹介したいと思います。

分析基盤環境構築・運用

システムのログやSNS・ブログといったソーシャルデータを収集・保管する環境を整備します。具体的にいうと、下記のような業務を担当します。

[収集]
分析の元となるデータを業務システムやSNSから収集する環境を構築・運用します。具体的には、業務システムのログやSNSのAPIから取得したデータを収集するバッチを構築・運用します。収集されたデータはフォーマットが統一されていないため、ただ収集しただけでは非常に扱いづらいデータとなります。そのため、データを収集するだけでなく、JSONなどの扱い易い形式に変換、統一しておくことが求められます。
[蓄積]
収集したデータを蓄積するための環境を構築・運用します。具体的には、HadoopやMySQL、もしくはNoSQLといったいわゆるデータベース環境を構築・運用します。各データベースで特徴が大きく異なるため、各データベースの特徴や構造を深く理解しておく必要があります。その上で、セキュリティ要件やスケーラビリティを考慮し、適切なデータベースを選択することが求められます。
[操作]
データ蓄積環境からデータを取り出す環境を構築・運用します。具体的には、BI(Business Intelligence)ツールの整備や、Hive、pigのようなデータ操作環境を構築・運用します。WEB業界のように分析のスピードが企業競争力に直結する場合も多いため、データ操作環境の構築では、負荷対策が非常に重要です。環境を使用するデータサイエンティストの人数や分析クエリの負荷をあらかじめ想定し、適切なツールの選定や高負荷を避ける運用方法を策定することが求められます。

分析・レポーティング

分析基盤環境を用いて分析・レポーティングを行い、ビジネス上の問題解決や改善提案を行います。分析とは、「データを用いてビジネス上重要な知見を得ること」、また、レポーティングとは、「KPI(Key Performance Indicator)を意思決定者に見える化すること」です。それぞれもう少し詳しく解説します。

□分析

分析では、データ操作環境を使用してビジネス上の意思決定につながるような知見をあぶり出します。具体的な例として、通信キャリアにおいて「新規入会者の継続率が下がってきたのはなぜか」といった問いに対して、データを活用して原因を見つけていく分析を考えてみましょう。このような分析を行うとき、データサイエンティストがとるべきアプローチは大きく分けて仮説検証型と知識発見型があります。それぞれの特徴を具体的に紹介します。
(※継続率：新規入会者が3ヶ月後もそのキャリアを解約せず、継続的に使用している割合とします。)

[仮説検証型]
継続率が下がった原因をいくつか考え、仮説として採用するアプローチです。例えば、「優良顧客が多い販売チャンネルからの販売が減ったことが原因」といった仮説を採用したとしましょう。その上で、仮説と実際のデータが矛盾していないかを検証します。今回の例では、下記の2つの条件が成立していれば仮説が正しいと考えられます。
- 販売チャンネルによって新規入会者の継続率が異なる
- 継続率が高い販売チャンネルからの新規入会者の数の増減によって、全体の継続率低下が説明できる
この条件が成立しているかどうかを、データ操作環境からデータを抽出することによって検証していきます。
[知識発見型]
仮説検証型では、仮説を考えた後にデータに当たりました。一方、知識発見型では、まずデータに当たり、その結果を解釈するというアプローチをとります。例えば、「継続者と解約者の属性の違いを決定木分析にかける」ということを行います。ユーザー属性とは、性別、年齢、居住都道府県、販売チャンネル、決済手段、使用頻度…などの利用者に関するデータを指します。決定木分析を用いると、継続者と解約者で最も異なる属性をあぶり出すことができます。今回の例では、「販売チャンネル」が継続社と解約者で最も異なる属性だという結果になるでしょう。このような知識発見型の分析には、データ操作環境としてIBM社のSPSSや、オープンソースのRなどが用いられることが多いです。また、今回紹介した例とは少し毛色が異なりますが、レコメンデーションエンジン開発などで用いられる機械学習も、知識発見型アプローチの1つです。

□レポーティング

分析基盤環境にデータが増えてくるに従って、非常に重要となるのがレポーティングです。データが非常に細かい粒度で蓄積されていけばいくほど、本当に重要な指標が見えづらくなっていきます。そのため、ビジネス上で重要な指標(KPI: Key Performance Indicator)を整理、見える化しておくことも、データサイエンティストの仕事の1つです。

[KPI報告]
KPIを設計、見える化、必要に応じて意思決定者に共有する仕事です。多くの場合、BIツールのダッシュボードが成果物になります。一見簡単そうな仕事に聞こえますが、非常に責任がある高度な仕事です。というのは、設計したKPI群に漏れがあった場合、ビジネス上の重要な変化を見逃してしまうからです。例えば、オンラインゲームで「売上」と「課金ユーザー数」の2指標をKPIに設定し、毎日記録していたとします。一見この2指標でビジネスの善し悪しが測れそうですが、実は不十分です。というのは、この2指標だけではユーザーの課金額のばらつきがわからないからです。図2に示したように、少数のユーザーによって売上が支えられるような構造になった場合、彼らの離脱は売上低下を意味します。これは、「売上」と「課金ユーザー数」のみでは気づくことができないビジネスリスクです。

図2:課金ユーザーセグメントの変化

今回は、データサイエンティストの様々な業務内容を紹介しました。
第２章では、データサイエンティストに必要なスキルを紹介します。

#データサイエンティスト

IT業界職種研究