Googleドライブ|PDF|OCR
PDF文書を選んで右クリックすると操作メニューがポップアップするがその中からGoogleドキュメントで開くを選ぶと少々時間をおいてテキストが表示される。PDFのレイアウト情報は喪失して、テキストデータだけが残ったGoogleドキュメントの書式。ひょっとするとページ情報は維持されているかもしれない。テキストデータのファイル名はPDF文書のものと同じ。
複数のPDFをまとめて変換はどうするか?
後で考えることにして。OCRにかけたファイルも同居させておけば(普通は隣り合って並んでいる?)全文検索を掛けると容易に目的のPDFを発見できそうだ。一旦、格納フォルダーを開く手順になるかも知れない。
※
世の中にはスキャナーとOCRを組み合わせた商品もある。PDFとテキストをオーバーレイさせて自然な感じで管理できる超便利なツールもある。ドキュメントマネジメントの世界が広がっている。
※
Googleのアプローチは既に読み取った後のPDFファイル、外部から入手したPDFファイルも処理できる。
一括で処理するアプリでも出てくれば利用度も上がるだろう。この辺のAPI公開は既にやっているに違いない。
※