Linux

linux核心軟鎖nagios

  • February 13, 2012

這幾天我也遇到過幾次這種情況,不知道是什麼原因造成的?看起來與 nagios/smp/記憶體管理有關。似乎每 24 小時左右重複一次。

這是一個 debian 6 系統,帶有來自 Squeeze-proposed-updates 的最新 2.6.32 核心。

Jan 22 22:40:40 zzx-zzx kernel: [176617.649082] Pid: 2070, comm: nagios3 Not tainted (2.6.32-5-686-bigmem #1) System x3550 M3 -[7944D2M]-
Jan 22 22:40:40 zzx-zzx kernel: [176617.649085] EIP: 0060:[<c10249bb>] EFLAGS: 00000202 CPU: 13
Jan 22 22:40:40 zzx-zzx kernel: [176617.649094] EIP is at native_flush_tlb_others+0x85/0xa6
Jan 22 22:40:40 zzx-zzx kernel: [176617.649096] EAX: 00000282 EBX: c14661ac ECX: c10200d8 EDX: 00000020
Jan 22 22:40:40 zzx-zzx kernel: [176617.649099] ESI: 00000005 EDI: 00000140 EBP: c14661a0 ESP: ee4c9a3c
Jan 22 22:40:40 zzx-zzx kernel: [176617.649101]  DS: 007b ES: 007b FS: 00d8 GS: 00e0 SS: 0068
Jan 22 22:40:40 zzx-zzx kernel: [176617.649104] CR0: 8005003b CR2: b758a376 CR3: 2eb7e000 CR4: 000006f0
Jan 22 22:40:40 zzx-zzx kernel: [176617.649106] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
Jan 22 22:40:40 zzx-zzx kernel: [176617.649108] DR6: ffff0ff0 DR7: 00000400
Jan 22 22:40:40 zzx-zzx kernel: [176617.649110] Call Trace:
Jan 22 22:40:40 zzx-zzx kernel: [176617.649116]  [<c1024aa3>] ? flush_tlb_page+0x5d/0x65
Jan 22 22:40:40 zzx-zzx kernel: [176617.649120]  [<c1023e90>] ? ptep_set_access_flags+0x59/0x63
Jan 22 22:40:40 zzx-zzx kernel: [176617.649125]  [<c10a1040>] ? do_wp_page+0x3b9/0x7dd
Jan 22 22:40:40 zzx-zzx kernel: [176617.649131]  [<c1031770>] ? finish_task_switch+0x76/0x95
Jan 22 22:40:40 zzx-zzx kernel: [176617.649135]  [<c10b61a0>] ? kmem_cache_free+0x78/0xaf
Jan 22 22:40:40 zzx-zzx kernel: [176617.649138]  [<c1031770>] ? finish_task_switch+0x76/0x95

這是一個核心錯誤。您可以嘗試將其作為錯誤報告送出到 Debian 的錯誤跟踪器上,但他們可能只會告訴您嘗試不同的核心。

在我看來,除非您願意花時間從原始碼建構核心,否則您不太可能找出原因。我推測這是一個與 bigmem 相關的錯誤,因為呼叫跟踪中存在“flush_tlb_page”。

您可以嘗試執行 64 位,或者嘗試從 Sid 反向移植核心。如果 Squeeze 中的 64 位核心仍然存在問題,那麼 Squeeze-backports 中還有一個新核心。

引用自:https://serverfault.com/questions/353256