Linux
linux核心軟鎖nagios
這幾天我也遇到過幾次這種情況,不知道是什麼原因造成的?看起來與 nagios/smp/記憶體管理有關。似乎每 24 小時左右重複一次。
這是一個 debian 6 系統,帶有來自 Squeeze-proposed-updates 的最新 2.6.32 核心。
Jan 22 22:40:40 zzx-zzx kernel: [176617.649082] Pid: 2070, comm: nagios3 Not tainted (2.6.32-5-686-bigmem #1) System x3550 M3 -[7944D2M]- Jan 22 22:40:40 zzx-zzx kernel: [176617.649085] EIP: 0060:[<c10249bb>] EFLAGS: 00000202 CPU: 13 Jan 22 22:40:40 zzx-zzx kernel: [176617.649094] EIP is at native_flush_tlb_others+0x85/0xa6 Jan 22 22:40:40 zzx-zzx kernel: [176617.649096] EAX: 00000282 EBX: c14661ac ECX: c10200d8 EDX: 00000020 Jan 22 22:40:40 zzx-zzx kernel: [176617.649099] ESI: 00000005 EDI: 00000140 EBP: c14661a0 ESP: ee4c9a3c Jan 22 22:40:40 zzx-zzx kernel: [176617.649101] DS: 007b ES: 007b FS: 00d8 GS: 00e0 SS: 0068 Jan 22 22:40:40 zzx-zzx kernel: [176617.649104] CR0: 8005003b CR2: b758a376 CR3: 2eb7e000 CR4: 000006f0 Jan 22 22:40:40 zzx-zzx kernel: [176617.649106] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000 Jan 22 22:40:40 zzx-zzx kernel: [176617.649108] DR6: ffff0ff0 DR7: 00000400 Jan 22 22:40:40 zzx-zzx kernel: [176617.649110] Call Trace: Jan 22 22:40:40 zzx-zzx kernel: [176617.649116] [<c1024aa3>] ? flush_tlb_page+0x5d/0x65 Jan 22 22:40:40 zzx-zzx kernel: [176617.649120] [<c1023e90>] ? ptep_set_access_flags+0x59/0x63 Jan 22 22:40:40 zzx-zzx kernel: [176617.649125] [<c10a1040>] ? do_wp_page+0x3b9/0x7dd Jan 22 22:40:40 zzx-zzx kernel: [176617.649131] [<c1031770>] ? finish_task_switch+0x76/0x95 Jan 22 22:40:40 zzx-zzx kernel: [176617.649135] [<c10b61a0>] ? kmem_cache_free+0x78/0xaf Jan 22 22:40:40 zzx-zzx kernel: [176617.649138] [<c1031770>] ? finish_task_switch+0x76/0x95
這是一個核心錯誤。您可以嘗試將其作為錯誤報告送出到 Debian 的錯誤跟踪器上,但他們可能只會告訴您嘗試不同的核心。
在我看來,除非您願意花時間從原始碼建構核心,否則您不太可能找出原因。我推測這是一個與 bigmem 相關的錯誤,因為呼叫跟踪中存在“flush_tlb_page”。
您可以嘗試執行 64 位,或者嘗試從 Sid 反向移植核心。如果 Squeeze 中的 64 位核心仍然存在問題,那麼 Squeeze-backports 中還有一個新核心。