どこにでもいるSEの備忘録

たぶん動くと思うからリリースしようぜ

PythonでPDFファイルの中身をいじる

世の中の文書がすべて扱いやすいデータかというとそうでもなくて、PDFも普通に出回っています。 今回はPDFの中身をPythonで確認していたので、その記録です。

PDF

PDFは厄介で、図と文字がごちゃごちゃになっています。印象としては、形式だった文書とかがPDFの場合が多い気がします。 こちらは下の記事によれば、pdfminer.sixとやらを使うと文字の抽出が出来るらしいです。(もちろん文字として埋め込まれている場合に限りますが)

www.tech-tech.xyz

インストール

Python 2/3共通で使えるやつはpdfminer.sixってやつです。

pip3 install pdfminer.six

インストールはこんだけ。

文字を抽出してみる

サンプルのPDFは適当に拾ってきます。 探せば適当に見つかるので、ソースは省略。

コードはこんな感じで中身を表示できます。

出力は割ともりもり出てくるので省略。

感想

実社会では、勉強に使うようなきれいなデータはまず間違いなくありえないので、こういう地味なのを地道にやるんでしょうね。 意外と論文とかレポートとかPDFが多いんで、こういうの使って読み込むのがいいんでしょうね。

何はともあれ普通に動いてよかったよかった。