當確保數(shù)據中心具有更大的彈性時,組織定期維護為其提供電源保障的不間斷電源(UPS)至關重要。而其維護旨在最大限度地降低風險,并使UPS電源以安全高效的方式運行。但是,如果執(zhí)行維護的行為本身就構成了風險呢?組織能采取什么樣的應對措施?
例如英國一家航空公司的數(shù)據中心在2017年夏季由于人為失誤發(fā)生故障。而人為錯誤是在UPS維護過程中出現(xiàn)問題的主要原因,工程師可能會按錯開關,或者按錯誤順序執(zhí)行程序。
盡管在這些情況下指責工程師的疏忽很容易,但這種錯誤通常是由于操作程序不規(guī)范、標識不良,甚至是培訓措施不到位所造成的。通過在UPS安裝開始時消除這些問題,可以避免風險。
例如,如果安裝的UPS電源系統(tǒng)是由大型并聯(lián)UPS和復雜的開關柜組成的供電系統(tǒng),則應在設計中加入連鎖裝置。這些措施促使用戶以受控和安全的方式進行切換,但在項目開始時往往被排除在設計之外以節(jié)省成本。
全天候運行的設備監(jiān)控還提供強大的保護功能,應該成為組織維護系統(tǒng)的一部分。而嚴格的培訓也是至關重要的。
采取簡單的措施也能有所作為。
通過實時更新基本標簽和切換示意圖可以避免災難的發(fā)生。建議組織提供明確的切換程序的文件記錄。如果現(xiàn)場維護非常關鍵,維護人員實施時將相互提醒(兩名工程師在執(zhí)行每項行動前都會檢查執(zhí)行程序)將防止大多數(shù)人為錯誤。
采用先進技術
任何維修和維護都可能會為UPS或開關設備帶來風險,所以需要減少維修次數(shù)。而出現(xiàn)的大多數(shù)問題(包括電氣部件的故障)都可以通過監(jiān)控電氣部件的熱量提前檢測出來。
例如,如果電氣部件的連接點沒有擰緊,它將開始升溫并最終以某種方式失效。而檢查每個連接最有效的解決方案是采用熱成像技術。熱成像技術可以識別潛在的問題。
監(jiān)控設備和能力
全天候的設備監(jiān)控還提供強大的保護功能,應該成為組織維護措施的一部分。嚴格的培訓也至關重要,同時確保設備主管工程師能夠勝任工作。
組織的維護人員不要害怕向維護服務提供者提出問題,他們有責任提供合格證明,這與組織本身及其工程師有關,并且總是需要檢查現(xiàn)場處理情況。
強大的維護措施還應該確保當UPS發(fā)生故障時得到及時和有效的響應。服務級別協(xié)議需要適用于應用程序的關鍵性。如果僅在正常運營時間內才能訪問UPS,那么對于UPS的全天候的響應,這樣的維護合同沒有意義。也就是說,如果數(shù)據中心全天候運營,并對業(yè)務非常關鍵,那么全天候的響應是必需的。
組織需要確切地說明響應的構成,這也許只是一個電話號碼或者到現(xiàn)場處理的工程師,并需要審查工程師的資質和水平。
對組織當前的UPS維護程序進行審查,將有助于確定并降低組織以前可能沒有預料到的關鍵操作的風險。組織通過進行盡職調查,可以避免發(fā)生事故。