最終更新:2017-04-11 (火) 19:57:52 (581d)

TeX用語集?

pdftotext

Xpdf utilities 付属の PDF の文字列を抽出して ASCII テキストファイルに 保存するためのプログラム。xpdfrc にて適切な設定をしておけば、いちおう 日本語も大丈夫。fi, fl, ffi, ffl oe, ae 等のように合字などは正常に抽出する ことができないので、わざと合字を殺したフォントを使うのもあり。

pdftotext hoge.pdf hoge.txt

とすることで hoge.pdf からテキストを抽出して hoge.txt が生成される。