Pdf
有什麼工具可以以類似於 Acrobat 的 OCR 功能的方式自動對掃描的 PDF 文件進行 OCR?
開源首選,但不是必需的。
我有 Adobe Acrobat 8,並且非常喜歡 OCR 功能,它基本上可以在掃描文件的頂部放置一個不可見的 OCR 文本層。因此,您在螢幕上看到的是原始掃描文件,但結果是可搜尋的。
我正在尋找的是一種自動化這個過程的方法。我目前有一些用於處理和存檔掃描文件的腳本,並且正在尋找可以直接插入到此批處理過程中的內容,以類似於我可以使用 Acrobat 執行的方式執行 OCR。
歡迎大家提出建議,謝謝!
我在一個公司文件歸檔項目中實現了這一點。掃描文件為 tif 文件(單頁)。然後使用Cuneiform創建單個 tif 的 hocr 文件。然後使用hocr2pdf輸出 PDF 文件。如果有多個掃描頁面,我使用 gs 將 PDF 合併為一個 PDF 文件。效果非常好,OCR 足以滿足我們的需求,並且可以在任何 PDF 查看器中進行搜尋。
你看過 WatchOCR 嗎?您可以從http://www.watchocr.com下載它。它是一個免費和開源的 OCR 伺服器,可將僅圖像 pdf 轉換為來自監視文件夾或網路共享的文本可搜尋 pdf。