對經過身份驗證的掛載請求後掛起的 NFS 伺服器進行故障排除

December 17, 2014

我需要一些關於在 Scientific Linux (RHEL) 6.1 上解決 NFS 伺服器問題的建議。伺服器上的日誌顯示發出了經過身份驗證的掛載請求：
Jan 13 16:30:02 ??? rpc.mountd[3996]: authenticated mount request from ????:784 for /shared-storage/cm/shared (/shared-storage/cm/shared)
但在那之後，它並沒有繼續下去。在客戶端上，它也掛起。現在有趣的是，我有兩台 NFS 伺服器，它們應該是相同的，一台執行良好，而另一台則表現出上述行為。問題也不是完全持久的，即有時掛載請求會成功。
我認為問題一定與伺服器有關，而不是與客戶端有關，因為它在另一台伺服器上執行良好。我的問題是我應該在哪裡搜尋問題。我已經使用 exportfs -r 重新創建了導出，我已經重新啟動了 NFS 伺服器，我已經比較了兩個伺服器的 rpcinfo 輸出 - 沒有成功。該問題甚至在重新啟動後仍然存在。任何其他想法表示讚賞。
作為對蒂姆問題的回答：我在 dmesg 中偶爾有以下內容，但不知道是否相關
e1000e 0000:0c:00.0: eth4: Detected Hardware Unit Hang:
 TDH                  &lt;24&gt;
 TDT                  &lt;25&gt;
 next_to_use          &lt;25&gt;
 next_to_clean        &lt;24&gt;
buffer_info[next_to_clean]:
 time_stamp           &lt;1c3d12940&gt;
 next_to_watch        &lt;24&gt;
 jiffies              &lt;1c3d12940&gt;
 next_to_watch.status &lt;0&gt;
MAC Status             &lt;80383&gt;
PHY Status             &lt;792d&gt;
PHY 1000BASE-T Status  &lt;7800&gt;
PHY Extended Status    &lt;3000&gt;
PCI Status             &lt;10&gt;
進一步編輯：上述問題不會發生在正在工作的機器上，因此它可能是相關的。
再次編輯：錯誤不在用於 NFS 的（軟體）設備上，而是在另一個設備上。NFS 掛載也不會觸發該消息。

syslog 或 dmesg 中有什麼可疑的東西嗎？我很好奇行為不端的系統是否存在硬體問題。
編輯，對您在 dmesg 中看到的錯誤感到好奇，並發現此處提到的相同錯誤：Linux e1000e (Intel network driver) questions galore，我從哪裡開始？
從 OP 發布的所有調試輸出中，我確信他的硬體快要死了，顯然有一個核心參數可以解決這個問題：pcie_aspm=off
您可以嘗試使用該參數啟動，看看它是否可以解決問題！

引用自：https://serverfault.com/questions/349678

對經過身份驗證的掛載請求後掛起的 NFS 伺服器進行故障排除

相關問答

僅當存在 Samba 掛載時才綁定掛載？（例如：BIND MOUNT 需要 NFS 掛載 172.16.xxfiles…）

Rsync：“chown 失敗：權限被拒絕 (13)”

為什麼作為 rw 安裝的 nfs 伺服器返回只讀文件系統錯誤

NFS：使用伺服器上的組控製文件/文件夾訪問

如何在掛載 nfs 時指定要使用的 ipv6 地址

NFS 不允許配置中指定的主機掛載共享