Dell Poweredge 伺服器 IDRAC 遠端管理卡整合 LibreNMS 做維運監控
提到伺服器大部份人是連想到被放在機房內或是辦公室內的一個角落,平常不太有人會注意到它的存在。但是伺服器提供的服務一旦斷線,就可能影響到所有工作團隊甚至造成營運停擺,損失可不小。服務會中斷有可能是硬體問題或是軟體問題,這需要仰賴網管人員做判斷,所以平時如果有對伺服器的軟硬體及服務監控,那麼當系統有異常現象,就會立即收到通知。但大部分公司伺服器上線後並無相關監控機制,例如當伺服器的三顆做 RAID 5 的硬碟壞了一顆,系統管理人員沒有查覺,等到第二顆硬碟又損壞,整組RAID 上的資料就無法復原,伺服器提供的網路服務就會中斷,這時就會讓相關人員無法工作,造成損失。

下圖一 為 DELL Poweredge IDRAC 遠端管理介面,系統的健康狀況一目了然。
(點選箭頭或滑動可以切換圖片觀看)

伺服器除了故障停機產生的問題,另外一個重點就是如何做遠端管理。伺服器運作一般會鎖在公司機房或是 IDC 機房,避免被不相干的人員操作導致問題,機房內空間的溫溼度調控也有助於伺服器穩定運作。基本上網管人員平常透過網路連進伺服器,比較少有機會在伺服器前面觀看面版燈號,一旦系統出問題,能夠即時連線是解決問題最快的方式,尤其是當機房與辦公室有一段距離,仰賴人員奔跑查看往往緩不濟急。

當你購買Dell Poweredge 伺服器時你可以加買 IDRAC 企業版做遠端管理。它是一張獨立的控制卡,具有獨立的 IP,讓你可以做到下列情境。

  • 定期將伺服器的運作狀況 mail 給系統人員,避免無法第一時間知道系統異常現象,例如硬碟發生故障。
  • 當系統服務異常終止,可以先登入 IDRAC 查看是否有硬體故障等現象。
  • 當系統突然當機或是停機,網管人員收到通知後,可以遠端重開機。
  • 當系統開機卡在作業系統階段無法完成,IDRAC 可以直接登入伺服器螢幕下指令,取代 iKVM 的功能。
  • 當伺服器作業系統毀損,可以遠端重灌作業系統。
  • 當機房因為空調故障,溫度過高可能會造成伺服器過熱當機,系統管理人員會收到溫度異常通知。
  • 伺服器重開機會收到通知。系統管理人員可以判斷是否為正常重開機。
  • 當系統出現問題,IDRAC 跑出的報表可以提供給 Dell 技術人員做判斷。

但遠端管理卡畢竟是要遠端登入介面查看,是否可以與網管軟體做整合?答案是有的,因為 IDRAC 都有支援 SNMP。我們可以使用開源的 LibreNMS 將 IDRAC 提供的資訊拉回到儀表板,這樣我們平常在維運所有系統時就能一併查看 IDRAC 提供的資訊是否有異常,你也可以對異常事件設定警報通知,等於是除了 IDRAC 發出的警報,LibreNMS 也可以發出警報,這樣就不會有漏網之魚的情況發生。

使用LibreNMS 將 DELL IDRAC 的 SNMP 資訊帶入

圖二: 使用LibreNMS 將 DELL IDRAC 的 SNMP 資訊帶入,可以詳細看到CPU 溫度/風扇轉數 等資訊

使用LibreNMS 將 DELL IDRAC 的 SNMP 資訊帶入
圖三: 最後一列 Virtual Disk 0 就是伺服器的硬碟RAID ,目前是 online 代表運作正常。

時序進入到 2021 ,疫情不見緩和,有一些公司的人員必須遠端完成工作。傳統上必須到機房才能處理的問題,透過 Dell IDRAC 遠端管理卡及 LibreNMS 網管軟體已經可以解決絕大部份問題,這也是一種超前部署,避免災難來臨,來不及反應。


分享


資安防護,雲地整合,善用雲服務資源 - Cloudflare