データマイニングとは、課題解決のためにデータから知識を抽出することです。
データマイニングの標準プロセスとして提案されているプロセスとしては次の2つが有名です。
- CRISP-DM(Cross Industry Standard Process for Data Mining)
- SEMMA(Sample, Explore, Modify, Model, Assess)
CRISP-DMのプロセス
phases |
フェーズ |
説明 |
Business Understanding |
ビジネスの理解 |
解決しようとするビジネスの課題について、その背景や意義を含めて理解します |
Data Understanding |
データの理解 |
課題解決に使用するデータについての信頼性、限界など様々な側面を理解します |
Data Preparation |
データの準備 |
データを表形式に変換したり、欠けている値(欠損値)を保管したりして、分析に利用可能な形に整えます。データクレンジングとも呼ばれます。 |
Modeling |
モデリング |
データの規則性をとらえたモデルやパターンを作成します。 |
Evaluation |
評価 |
実際のビジネスに適用する前に、モデリングによって得られた成果に対してその有効性を検証します。 |
Deployment |
適用 |
得られたモデルや知見を実際のビジネスの場面で利用します。 |
SEMMAのプロセス
phases |
フェーズ |
説明 |
Sample |
サンプル |
データのサンプルを集める |
Explore |
調査 |
データを視覚化するなどして、データ間の関係などを理解します |
Modify |
修正 |
RISP-DMのData Preparationに相当します |
Model |
モデル |
CRISP-DMのModelingに相当します |
Assess |
評価 |
CRISP-DMのEvaluationに相当します |
0 people found this article useful
0 people found this article useful