EXCELのセルの値をPythonの正規表現で置換する
EXCELのセルの値を正規表現で置換したい。できれば使いなれたPythonでやりたい。 そのような人も結構多いのではないでしょうか。 この記事では、OpenRefineを使用してPythonスクリプトでデータを変換する方…
EXCELのセルの値を正規表現で置換したい。できれば使いなれたPythonでやりたい。 そのような人も結構多いのではないでしょうか。 この記事では、OpenRefineを使用してPythonスクリプトでデータを変換する方…
データマイニングとは、課題解決のためにデータから知識を抽出することです。 データマイニングの標準プロセスとして提案されているプロセスとしては次の2つが有名です。 CRISP-DM(Cross Industry Stand…
漢字と漢字の間にあるスペース(空白)を削除したい。 でも、英語の単語間のスペース(空白)は削除したくない! と思うときはありませんか? 今日はデータのクリーニング(クレンジング)にとっても手軽で便利な方法をお教えします。…
PDFのデータをテキスト形式など、他の形式で出力して文章を加工したいと思うときがあると思います。 Acrobat Reader DC(無料版)でも、以下の5種類のフォーマットに変換して保存することができます。 Micro…
EXCELでデータを作成しているときに、ある列に同じ値をたくさんコピーしたい場合があります。 データが少ない場合は下の図のようにマウスでドラッグする方法が最も手軽な方法です。 しかし、行数が少ない場合は苦になりませんが、…
上の図のように重複したデータを削除して、重複がないデータを作成したいことがよくあります。 一番簡単な方法は、やはりエクセルです。 EXCELによる重複データの削除 EXCEL 2010以降から便利な重複データの削除機能が…
Error:別途、Javaのインストールが必要です 概要 オープンソースのBIツールでお勧めしたいのが、Pentahoの「Business Analytics Platform」です。 Pentahoは、オープンソースの…
データのクレンジングで必要になる主な作業をまとめてみました。 ■名前クレンジング 旧字→新字変換 姓名分割 法人格の統一 法人名部署等の分離 ■住所クレンジング 住所妥当性判断 旧住所→新住所変換 住所補完(住所辞書から…
複数の異なるデータをマージすることは、想像以上に手間がかかる仕事です。特に100万行を超えるような大量データの場合は、EXCELでは処理することが難しくなります。そのような場合にぜひ活用したいのがデータ統合の専用ソフトで…
Talend Open Studio for Data Qualityは、データの品質検査(重複行のカウント、値のパターン確認など)や訂正作業のために非常に有効なツールです。 非常に強力で便利なツールですが、きちんと動か…