Ubuntu
在 Ubuntu 上索引 PDF 文件
我正在 Ubuntu 中尋找一種解決方案,該解決方案可以索引 PDF(和 ps?)文件以供以後搜尋。
標準是:
- 兼容性:通常提取文本會有所不同,具體取決於用於創建 PDF 的軟體。一些PDF也可以被“鎖定”,我想應該尊重這一點。
- 搜尋功能:萬用字元、正則表達式、“模糊”匹配。
- 搜尋速度
在我的情況下,我想索引一個學術期刊文章的文件夾,因此要求它始終如一地工作,無論是什麼軟體創建了 PDF。我已經在使用參考管理器,所以不想替換它。
例如:一個好的 Beagle 前端和一個允許它索引 PDF 的外掛將是完美的。
Tracker 與 Beagle 和 Strigi 做同樣的事情,但與 Beagle 不同的是,它是用純 C 編寫的(Beagle 是一個 Mono 應用程序)。據稱,它比 Beagle 快得多,儘管我自己沒有計算過。
我找不到 Tracker 的連結,但我確定它在預設的 Ubuntu 儲存庫中。
Lucene對 PDF、HTML、Microsoft Word 和 OpenDocument 進行全文索引。它只是一個庫,但有幾個應用程序/CMS 使用它,或者您可以將其用作您自己的解決方案的基礎。
它是免費軟體(Apache 許可證)。
編輯:
如果您正在尋找帶有前端的東西,您可能會考慮 Beagle 或 Strigi: