「ここの数字、おかしくない?」
自身が作成した分析結果を説明している際、上司やプロジェクトメンバーからこのように指摘され、嫌な汗をかいた経験はないでしょうか。自分では正しいと思ってデータ分析をしていても、些細な集計ミスや異常なデータ値を見逃したまま分析をしてしまうことで、このような指摘を受けることになります。データ分析において、「分析した」ことと、「正しく分析できた」ことは必ずしも同じではありません。分析において正しい結果を出すために、まず重要になるのが「分析する前の元データの確認」になります。
今回は、正しい分析をするための元データ確認時に特に気を付けたいポイントを3点ご紹介させていただきたいと思います。
ポイント1:半角・全角表記が混在したデータが含まれていないか
同じ内容のデータでも半角表記と全角表記では全く別のデータになります。例えば、同じ配送先であっても住所において「1丁目2番地3号」という数字の全角表記に対し、「1丁目2番地3号」という数字の半角表記が混在している場合、ピボットテーブルで集約した際はデータが分かれ、別の配送先扱いになってしまいます。また、「〇―△―□」という全角表記で住所が記載されているパターンにおいても、「〇-△-□」と「―」ハイフンが半角になるだけで上記と同様に、集約されずに別の配送先扱いになってしまいます。

このように同じ配送先でも住所が別表記で登録されていた場合、本来1件として集計すべきデータが複数件として扱われ、配送件数や配送重量、作業工数の分析結果に影響を及ぼすことがありますので、半角・全角表記が混在していないか注意する必要があります。
確認ポイント2:イレギュラーな数値が含まれていないか
データ分析を進めていくと、まれに異常な集計結果が出ることがあります。例えばトラック1台あたりの配送重量実績が最大積載量を大きく超えるような数値となっているパターンや、年間の支払金額が異様に多い、または異様に少ないと感じるようなパターンです。細かくデータを確認してみると、「入力されている重量データがkg(キログラム)単位であるはずがg(グラム)単位になっていた」、「入力されている支払金額が円単位であるはずが『千円』単位になっていた」、「本来記載されているはずの数値データが全て0になっていた」と判明することがあります。手入力でデータが作成されている場合はタイプミスによるデータ不備であることも考えられます。異常な結果が出た際にはデータを確認して単位や原因を追究する必要があります。
確認ポイント3:重複しているデータが含まれていないか
データ分析をした際に異常な集計結果が出た時、イレギュラーな数値とは別の原因として重複データが存在している、といったパターンもあります。データ取込時に同じデータを2回取り込んでしまったり、同じ配送実績が二重登録されていたり、マスタにおいて1つのコードに対して複数のデータが存在する場合などが主な原因となります。本来1つであるべきデータが複数存在している状態で分析を続行してしまうと、分析結果そのものが大きく変わってしまうことがあるので、数値の並びに違和感を覚えたら確認することを推奨します。
最後に
今回は正しい分析をするための元データ確認時に特に気を付けたいポイントを3点ご紹介させていただきました。今後、AIやBIツールなど、データ分析を効率化する技術はさらに進化していくと思われますが、正しい分析をするためには分析の前に元データの確認をすること、「おかしいな」と思ったら改めてデータを確認することが必要不可欠になります。そして、どれだけ便利なツールを使っても、最終的に分析品質を支えるのは、人による確認と違和感への気づきではないでしょうか。「正しく分析できているか」を意識しながらデータ分析をすることで、最終的に正しい分析結果につながると感じています。本稿の内容が少しでもお役に立てば幸いです。
(文責:三木)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
★掲載された記事の内容を許可なく転載することはご遠慮ください。
ロジ・ソリューションでは、物流に関するいろいろなご支援をさせていただいております。何かお困りのことがありましたらぜひお声掛けください。(お問い合わせはこちら)
