Windows-Server-2003

Windows Sharepoint Services 3 PDF 搜尋未索引所有單詞

  • August 24, 2012

我們在 Server 2003 R2 Enterprise SP2 機器上安裝了 Windows Sharepoint Services 3。我有安裝、配置和工作的 iFilter 的 Adob​​e Reader 8。我開始了完全爬網,並在使用搜尋時返回 PDF 搜尋。與以前不存在 PDF 內容搜尋相比,這是一個很大的變化。目前,業務部門已經註意到,對於某些單詞,他沒有找到合適的 PDF。

從所有跡象來看,似乎對於某些 PDF,並非所有單詞都被編入索引。有人可以幫忙嗎?

我關注了 Microsoft 的各種 KB 文章,其中最好的一篇包含了您需要的所有內容,但之後仍然無法搜尋 PDF 中的所有文本內容。

我已經檢查以確保在 PDF 本身(在閱讀器中)中搜尋單詞是有效的,並且確實如此,所以這不是 OCR 問題。對於我的問題,發現了以下問題並且必須更改/恢復:

  • 升級到 Reader X 徹底破壞了 PDF 內容搜尋。我仍然可以搜尋標題和說明,但無法搜尋 PDF 的內容。我不得不重新安裝 Adob​​e Reader 8。
  • 執行搜尋服務的服務帳戶需要是索引伺服器上的完全管理員。

摘要:我必須將服務帳戶添加為完全管理員,然後確保再次遵循記錄的步驟(在我的情況下確認),現在瞧,解決了。

就 PDF 中的可搜尋文本而言,有兩種類型的文件:從 Word/etc 保存的文件……“一直是數字化”的文件,然後是從紙上掃描並接收 OCR 的文件。猜猜紙上的字是什麼。

iFilter 不會對文件中的文本進行 OCR。如果您的文件最初是由其他軟體掃描的,那麼該軟體可能是可疑的。幾乎所有的 OCR 都是不完美的,有些是可怕的。您可以在打開文件的電腦上使用 Acrobat Reader 來搜尋其中的單詞。這應該告訴您文件中的 OCR 有多好。

另請注意這篇文章表明 OCR 文本可能在 iFilter 8中不起作用,您可能需要在伺服器上安裝 Reader 9。

最後,如果您可以使用 Acrobat Reader 很好地搜尋 PDF 中的單詞,那麼我將獲取文件並在實驗室中使用預設設置設置 SharePoint + iFilter,看看 iFilter 是否真的有問題。

引用自:https://serverfault.com/questions/419394