PDFのデータをテキスト形式など、他の形式で出力して文章を加工したいと思うときがあると思います。
Acrobat Reader DC(無料版)でも、以下の5種類のフォーマットに変換して保存することができます。
- Microsoft Word(*.docx)
- Microsoft Word(*.doc)
- Rich Text Format(*.rtf)
- Microsoft Excel(*.xlsx)
- Microsoft PowerPoint(*.pptx)
これだけでも十分かもしれませんが、Acrobat Pro DC(有料)であれば、さまざまな形式で出力することが可能です。
- Adobe PDF ファイル(最適化)
- EPS(Encapsulated PostScript)
- Excel ブック
- HTML
- JPEG
- JPEG2000
- PDF/A
- PDF/E
- PDF/X
- PNG
- PostScript
- PowerPoint
- TIFF
- Word97-2003文書
- Word文書
- XMLスプレッドシート2003
- テキスト(アクセシブル)
- テキスト(プレーン)
- リッチテキスト形式
特にAcrobat Pro DCでとてもよいと感じるのは、XML形式で比較的きれいに抽出できる点です。特筆すべきは以下の点です。
- 2段組みの文書でも原文の順番を保持したまま抽出可能
- 表データにタグをつけてくれるので、表のデータをPCで処理可能な形式で抽出可能
- 箇条書にタグをつけてくれるので、箇条書きの構造を保持したまま抽出可能
- 画像データをまとめて、imagesフォルダ配下に落としてくれる
などです。さすが本家本元とも言うべきでしょうか。
以下のような2段組みの文書でも原文の順番を保持したまま、正しく抽出してくれます。
以下のようにさまざまな形式で出力することが可能で、とても便利です。
きれいにXMLでデータを抽出したいと思われる方は、ぜひ、Acrobat Pro DCを検討してみてください。