PythonでPDFファイルの中身をいじる - どこにでもいるSEの備忘録

世の中の文書がすべて扱いやすいデータかというとそうでもなくて、PDFも普通に出回っています。今回はPDFの中身をPythonで確認していたので、その記録です。

PDF

PDFは厄介で、図と文字がごちゃごちゃになっています。印象としては、形式だった文書とかがPDFの場合が多い気がします。こちらは下の記事によれば、pdfminer.sixとやらを使うと文字の抽出が出来るらしいです。（もちろん文字として埋め込まれている場合に限りますが）

Python 2/3共通で使えるやつはpdfminer.sixってやつです。

pip3 install pdfminer.six

インストールはこんだけ。

サンプルのPDFは適当に拾ってきます。探せば適当に見つかるので、ソースは省略。

コードはこんな感じで中身を表示できます。

出力は割ともりもり出てくるので省略。

実社会では、勉強に使うようなきれいなデータはまず間違いなくありえないので、こういう地味なのを地道にやるんでしょうね。意外と論文とかレポートとかPDFが多いんで、こういうの使って読み込むのがいいんでしょうね。

何はともあれ普通に動いてよかったよかった。