予兆検知・可視化・アナリティクス

2019.07.03

Author:

データ分析での失敗例から学ぶ

AIや機械学習、データ分析を学び始めた頃、いくつかの典型的な失敗例にハマることがありました。今となってはそこを注意しながら分析を進めるようになりましたが、当時はどのように進めるべきなのか、かなり手探りだったように思います。今回の記事では、頭ではなんとなくわかってはいたものの、実際に分析をしてみたらまんまとハマってしまった例をいくつか紹介します。

  • ドメイン知識(専門知識)の不足
  • 過去データの不足やデータの加工
  • 分析手法の共有方法の未検討

 

ドメイン知識(専門知識)の不足

データ分析に関するナレッジが貯まっていない頃、データを生み出す側はデータ分析についてあまり考慮せず、またデータ分析側はデータに意味を見出さずに分析を進める、ということが起こりました。例えば弊社はネットワークの専門家は非常に多いですが、データ分析の専門家はまだまだ多くありません。私は弊社では珍しくネットワーク分野にはあまり携わっておらず、仮想化、プラットフォーム、ソフトウェアまわりに携わり、かつデータを扱うところを武器にしようとしていました。実際、ネットワーク機器のデータを使ってデータ分析をしてみると、グラフを描いたり、ステータスの可視化はできるものの、あくまで値の可視化しかできませんでした。ドメイン知識がないと、データを正しく分析できず、かつミスリードする可能性も生んでしまいます。このときはネットワークエンジニアとのコミュニケーションで解決できました。


fig3-1

【ドメイン知識の必要性】

 

過去データの不足やデータの加工

社内に貯まっていたとあるデータを使ってデータ分析や機械学習を行い、得られた結果を使って今後の活動計画につなげてみようということを一時期やっていました。その際、ぶつかった壁は大きく2つありました。

  • 実は扱えるデータが過去数年分しかなかった
  • そのままでは使えない、加工が必要なデータが多くあった

1つ目の問題は、扱えるデータが数年分しかなかったという点です。扱えるデータが数年分、というとかなりあるようにも見えますが、このときにやろうとしていたことは一年を周期とした予測をすることだったので、予測に必要なデータとしては少ないものでした。また、その分析を社内の部門等に紐づけてやってみようとしたところ、2つ目の問題(加工が必要なデータが多くあった)にぶつかりました。期が変わると、部門名が変わることもあると思いますが、それに伴い部門コード等関連する値も変わってしまっていました。そうなると、実際は同じ部門が行っていたことでもデータとしては異なる部門が行ったことになってしまうので、データの加工や変換が必要となります。「データの加工をどこで行うべきか」はよく議論されることであり、複雑なデータを加工して意味のあるデータにすることが分析をする人の腕の見せ所かもしれませんが、できるだけデータを生み出す場所で分析に適した形にしてほしいとも思った瞬間でした。ここもそれぞれの得意分野があるため、歩み寄りが大事だと感じました。


fig3-2

【データの加工をどこで行うべきか】

 

分析手法の共有方法の未検討

いろいろな分析をしていたとき、自分一人では手に負えなくなるときがありました。例えば分析や可視化のためのコードを書いていて行き詰まったときや、他の優先度の高い業務が割り込んできて誰かに作業を引き渡したいときです。もともと分析の結果は共有しようと思って作業を進めていましたが、分析の経過を共有することは考えていなかったので、自分の頭の中だけで理解して進めることも多くありました。説明のためにコメントを付け直したり、変数名を変えたりと、コードを書く文化がなかった自分にとって、あとから追記していくのは苦な作業となってしまいました。当時の分析はPythonを使っていたので、最近のJANOGでは運用自動化のツールとしても紹介されているJupyter Notebook等で作業履歴を残していくのは非常に重要だと感じています。この経験から、今はデータ分析に限らず、コンフィグやコードを共有しながら進めていく意識を持てるようになりました。

あらためて過去行っていたデータ分析を振り返ってみると、事前の準備が大事になることも痛感しました。今の時代、何事もデータが関わり、より多くの人がデータを意識できるようになると、よりデータを活用しやすくなるのでは?と思っています。

——————————————————————————————————————————
本Blogの内容については、”ネットワンシステムズ株式会社のサイトポリシー
または”ネットワンコネクト合同会社のサイトポリシー“が適用されます。

※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。

MORE「予兆検知・可視化・アナリティクス」記事