ビッグデータと「大量のデータ」の違い
「ビッグデータ分析」について少し勉強する機会がありました。
既にご存知の方も多いと思いますが、おさらいの意味も込めて(私の勉強の意味も込めて)書かせて頂きます。
「ビッグデータ」とは、大量のデータのことです。このように定義されると、「大量のデータは近年に限らず既に扱ってきており、『大量』という日本語が『ビッグ』という英語に変わっただけではないか」と思われる方がいらっしゃるかもしれません。
しかし、「ビッグデータ」は「大量データ」の言い換えではありません。大量データの分析対象は、POSデータのような典型的な数値情報でした。一方、ビッグデータの分析対象は、「文字情報」、「映像や画像」、「GPSが扱っている位置情報」など非数値情報も含めたものになります。
「ビッグデータ分析」と言われると「難解な統計学をフル活用して分析していくもの」と思われる方がいらっしゃるかもしれません。私もその一人で、大学時代に数理統計学を必修科目として学習しましたが理解出来なかったこともあり、「ビッグデータ分析」と聞いて正直ぞっとしました。
もしかしたら、読者の皆様の中にも同じように感じられる方がいらっしゃるかもしれません。
しかし、私たちビジネスパーソンにとって最も大切なことは、ビジネスにおける業務課題を解決することであり、決して高度な分析を行うことではありません。ビジネスにおけるデータ分析を有効活用するための第一歩は、「目的を明確にし、それを達成するための分析計画を練り、業務課題を解決するための施策を展開する」という一連の流れを知ることです。つまり、「ビッグデータ分析」はプロジェクトを進めるにあたって使用する1つの手段に過ぎないのです。
CRISP-DMとは
ビッグデータ分析を含む検討プロジェクトの一連の流れを定義しているフレームワークに、「CRISP-DM」というものがあります。簡単に説明します。
工程1:「ビジネスの状況の把握」業務課題は何で、何をもってこのプロジェクトを「成功」と見なすのかを明確にします。
工程2:「データの理解」:入手したデータに欠損や明らかな間違いがないかを確認します。
工程3:「データの準備」さまざまな部署から収集したデータを1つのデータに結合します。
工程4:「モデル式の作成」:モデル式とは、データ分析結果を説明するための、単純化した法則のことです。この工程では統計学の知識を使い、分析に則したモデル式を作成します。
工程5:「評価」:作成したモデル式の精度を評価し、どの程度一般化が可能かを調査します。
工程6:「展開」分析の結果見られた知見をどのように活かし、どのように工程1で定めた業務課題を解決していくのか、計画を立て実行します。
この6つの工程は、一方向的に進んでいくものではなく、プロジェクトを進めていく上で何度も前工程に戻りながら進めていくものになります。
昨今の「ビッグデータ分析」のブームを受け、各社で検討される機会が多いと思いますが、「ビッグデータ」という言葉のインパクトが大きいゆえに「分析をする」ことにとらわれ行き詰まってしまうことがあるかもしれません。その場合には、「解決したい課題は何か」、「分析結果を基に施策を実施できる社内体制は整っているのか」など、「ビッグデータ分析」前後の工程も一緒に振り返えられてみてはいかがでしょうか。
(文責:星 絵里華)
【参考文献】
『ビジネスデータ分析入門』 (学校法人 産業能率大学 総合研究所)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
★掲載された記事の内容を許可なく転載することはご遠慮ください。
(ロジ・ソリューション(株) メールマガジン/ばんばん通信第353号 2017年3月8日)