Googleドライブ|PDF|OCR





Googleドライブ|PDF|OCR

PDF文書を選んで右クリックすると操作メニューがポップアップするがその中からGoogleドキュメントで開くを選ぶと少々時間をおいてテキストが表示される。PDFのレイアウト情報は喪失して、テキストデータだけが残ったGoogleドキュメントの書式。ひょっとするとページ情報は維持されているかもしれない。テキストデータのファイル名はPDF文書のものと同じ。

複数のPDFをまとめて変換はどうするか?

後で考えることにして。OCRにかけたファイルも同居させておけば(普通は隣り合って並んでいる?)全文検索を掛けると容易に目的のPDFを発見できそうだ。一旦、格納フォルダーを開く手順になるかも知れない。



世の中にはスキャナーとOCRを組み合わせた商品もある。PDFとテキストをオーバーレイさせて自然な感じで管理できる超便利なツールもある。ドキュメントマネジメントの世界が広がっている。



Googleのアプローチは既に読み取った後のPDFファイル、外部から入手したPDFファイルも処理できる。

一括で処理するアプリでも出てくれば利用度も上がるだろう。この辺のAPI公開は既にやっているに違いない。

人気の投稿:月間

人気の投稿:年間

AWS コンピュータービジョン開発の教科書 (Compass) Kindle版

AWS コンピュータービジョン開発の教科書 (Compass) Kindle版
Lauren Mullennex (著), Nate Bachmeier (著), Jay Rao (著)

人気の投稿

Vision

Vision
Vision Kindle版 ハンス・P・バッハー (著), サナタン・スルヤヴァンシ (著)
ご注意:当サイトの記事は基本的に備忘録の類です。不適切な表現、誤った内容を含むことがあります。無断リンク・転載などはご遠慮ください。