Ubuntu

在 Ubuntu 上索引 PDF 文件

  • July 3, 2009

我正在 Ubuntu 中尋找一種解決方案,該解決方案可以索引 PDF(和 ps?)文件以供以後搜尋。

標準是:

  1. 兼容性:通常提取文本會有所不同,具體取決於用於創建 PDF 的軟體。一些PDF也可以被“鎖定”,我想應該尊重這一點。
  2. 搜尋功能:萬用字元、正則表達式、“模糊”匹配。
  3. 搜尋速度

在我的情況下,我想索引一個學術期刊文章的文件夾,因此要求它始終如一地工作,無論是什麼軟體創建了 PDF。我已經在使用參考管理器,所以不想替換它。

例如:一個好的 Beagle 前端和一個允許它索引 PDF 的外掛將是完美的。

Tracker 與 Beagle 和 Strigi 做同樣的事情,但與 Beagle 不同的是,它是用純 C 編寫的(Beagle 是一個 Mono 應用程序)。據稱,它比 Beagle 快得多,儘管我自己沒有計算過。

我找不到 Tracker 的連結,但我確定它在預設的 Ubuntu 儲存庫中。

Lucene對 PDF、HTML、Microsoft Word 和 OpenDocument 進行全文索引。它只是一個庫,但有幾個應用程序/CMS 使用它,或者您可以將其用作您自己的解決方案的基礎。

它是免費軟體(Apache 許可證)。

編輯:

如果您正在尋找帶有前端的東西,您可能會考慮 Beagle 或 Strigi:

比格犬

引用自:https://serverfault.com/questions/34461