世の中の文書がすべて扱いやすいデータかというとそうでもなくて、PDFも普通に出回っています。 今回はPDFの中身をPythonで確認していたので、その記録です。
PDFは厄介で、図と文字がごちゃごちゃになっています。印象としては、形式だった文書とかがPDFの場合が多い気がします。 こちらは下の記事によれば、pdfminer.sixとやらを使うと文字の抽出が出来るらしいです。(もちろん文字として埋め込まれている場合に限りますが)
インストール
Python 2/3共通で使えるやつはpdfminer.sixってやつです。
pip3 install pdfminer.six
インストールはこんだけ。
文字を抽出してみる
サンプルのPDFは適当に拾ってきます。 探せば適当に見つかるので、ソースは省略。
コードはこんな感じで中身を表示できます。
出力は割ともりもり出てくるので省略。
感想
実社会では、勉強に使うようなきれいなデータはまず間違いなくありえないので、こういう地味なのを地道にやるんでしょうね。 意外と論文とかレポートとかPDFが多いんで、こういうの使って読み込むのがいいんでしょうね。
何はともあれ普通に動いてよかったよかった。