データのクレンジング作業のまとめ

データのクレンジングで必要になる主な作業をまとめてみました。

■名前クレンジング
旧字→新字変換
姓名分割
法人格の統一
法人名部署等の分離

■住所クレンジング
住所妥当性判断
旧住所→新住所変換
住所補完(住所辞書から)
住所補完(郵便番号から)
住所コード付加
住所分割、連結

■マッチング
電話帳データベースマッチング
電話番号調査
データの信用性判定

■電話番号クレンジング
全角→半角変換
数字以外の削除
局番補完(住所から)
住所との電話番号の妥当性判定

■郵便番号クレンジング
全角→半角変換
数字以外の削除
郵便番号の補完(住所から)
住所との郵便番号の妥当性判定
郵便番号の種類判定

■名寄せ
個人・法人名名寄せ
世帯名名寄せ
住所名名寄せ
電話番号名寄せ

writer has written 23 articles