知っておきたいデータマイニングの標準プロセス

データマイニングとは、課題解決のためにデータから知識を抽出することです。
データマイニングの標準プロセスとして提案されているプロセスとしては次の2つが有名です。

  • CRISP-DM(Cross Industry Standard Process for Data Mining)
  • SEMMA(Sample, Explore, Modify, Model, Assess)
CRISP-DMのプロセス
phases フェーズ 説明
Business Understanding ビジネスの理解 解決しようとするビジネスの課題について、その背景や意義を含めて理解します
Data Understanding データの理解 課題解決に使用するデータについての信頼性、限界など様々な側面を理解します
Data Preparation データの準備 データを表形式に変換したり、欠けている値(欠損値)を保管したりして、分析に利用可能な形に整えます。データクレンジングとも呼ばれます。
Modeling モデリング データの規則性をとらえたモデルやパターンを作成します。
Evaluation 評価 実際のビジネスに適用する前に、モデリングによって得られた成果に対してその有効性を検証します。
Deployment 適用 得られたモデルや知見を実際のビジネスの場面で利用します。
SEMMAのプロセス
phases フェーズ 説明
Sample サンプル データのサンプルを集める
Explore 調査 データを視覚化するなどして、データ間の関係などを理解します
Modify 修正 RISP-DMのData Preparationに相当します
Model モデル CRISP-DMのModelingに相当します
Assess 評価 CRISP-DMのEvaluationに相当します

writer has written 22 articles