writer has written 23 articles

EXCELのセルの値をPythonの正規表現で置換する

EXCELのセルの値を正規表現で置換したい。できれば使いなれたPythonでやりたい。 そのような人も結構多いのではないでしょうか。 この記事では、OpenRefineを使用してPythonスクリプトでデータを変換する方…

漢字と漢字の間のスペース(空白)だけを削除する|秀丸の場合

漢字と漢字の間にあるスペース(空白)を削除したい。 でも、英語の単語間のスペース(空白)は削除したくない! と思うときはありませんか? 今日はデータのクリーニング(クレンジング)にとっても手軽で便利な方法をお教えします。…

【EXCEL】特定の列に同じ値を大量にコピーする方法

EXCELでデータを作成しているときに、ある列に同じ値をたくさんコピーしたい場合があります。 データが少ない場合は下の図のようにマウスでドラッグする方法が最も手軽な方法です。 しかし、行数が少ない場合は苦になりませんが、…

重複データを削除したい|簡単にできるツールまとめ

上の図のように重複したデータを削除して、重複がないデータを作成したいことがよくあります。 一番簡単な方法は、やはりエクセルです。 EXCELによる重複データの削除 EXCEL 2010以降から便利な重複データの削除機能が…

データのクレンジング作業のまとめ

データのクレンジングで必要になる主な作業をまとめてみました。 ■名前クレンジング 旧字→新字変換 姓名分割 法人格の統一 法人名部署等の分離 ■住所クレンジング 住所妥当性判断 旧住所→新住所変換 住所補完(住所辞書から…

EXCELに限界を感じたら使いたいフリーのデータ加工・統合ツール2選

複数の異なるデータをマージすることは、想像以上に手間がかかる仕事です。特に100万行を超えるような大量データの場合は、EXCELでは処理することが難しくなります。そのような場合にぜひ活用したいのがデータ統合の専用ソフトで…

【talend】Data Qualityでグラフや行(ロウ)・値の表示ができない場合の解決方法

Talend Open Studio for Data Qualityは、データの品質検査(重複行のカウント、値のパターン確認など)や訂正作業のために非常に有効なツールです。 非常に強力で便利なツールですが、きちんと動か…