由于IT運(yùn)營(yíng)、安全運(yùn)營(yíng)和設(shè)施之間的孤島或差距,使數(shù)據(jù)中心可用性長(zhǎng)期困擾著IT運(yùn)營(yíng)。企業(yè)必須解決這些差距,以實(shí)現(xiàn)更準(zhǔn)確、更全面的決策,特別是在數(shù)據(jù)中心優(yōu)化方面。
2018年11月發(fā)布的數(shù)據(jù)中心優(yōu)化計(jì)劃草案提出了一些新的指標(biāo),可用來(lái)衡量美國(guó)聯(lián)邦數(shù)據(jù)中心的優(yōu)化工作,包括圍繞數(shù)據(jù)中心可用性的新指標(biāo)。如果強(qiáng)制要求,美國(guó)政府實(shí)施數(shù)據(jù)中心優(yōu)化計(jì)劃(DCOI)的可用性指標(biāo)可能會(huì)帶來(lái)新的挑戰(zhàn)。盡管數(shù)據(jù)中心設(shè)施可用性可以用一個(gè)度量標(biāo)準(zhǔn)來(lái)衡量,但事實(shí)證明非常不準(zhǔn)確,并且實(shí)際上可能扼殺了調(diào)研機(jī)構(gòu)預(yù)測(cè)和解決維護(hù)數(shù)據(jù)中心可用性,以及對(duì)機(jī)構(gòu)任務(wù)至關(guān)重要的任何相互依賴(lài)關(guān)系所必需的問(wèn)題的能力。
這就是為什么美國(guó)聯(lián)邦機(jī)構(gòu)可以通過(guò)衡量代表數(shù)據(jù)中心及其基礎(chǔ)設(shè)施的運(yùn)行狀況、可用性和風(fēng)險(xiǎn)的子指標(biāo)而受益的原因。采用這種業(yè)務(wù)服務(wù)方法(按地理位置、應(yīng)用程序類(lèi)型或技術(shù)堆棧對(duì)組件進(jìn)行動(dòng)態(tài)分組)進(jìn)行數(shù)據(jù)中心優(yōu)化,可以使代理機(jī)構(gòu)更快地預(yù)測(cè)和解決問(wèn)題,從而更好地確保可用性。
使用業(yè)務(wù)服務(wù)結(jié)構(gòu),收集有關(guān)業(yè)務(wù)服務(wù)的底層IT組件的運(yùn)行狀況、可用性和風(fēng)險(xiǎn)的度量,以及支持該服務(wù)的基礎(chǔ)設(shè)施和應(yīng)用程序的動(dòng)態(tài)實(shí)時(shí)映射,可以為IT管理人員提供實(shí)時(shí)操作視圖,以支持隔離服務(wù)影響的根本問(wèn)題標(biāo)識(shí)。可以抽象設(shè)備并將單個(gè)設(shè)備和IT服務(wù)“冒泡”為表示業(yè)務(wù)服務(wù)整體狀態(tài)的組合度量。然而,子度量的表示可以使業(yè)務(wù)服務(wù)的執(zhí)行或管理層視圖能夠真正對(duì)數(shù)據(jù)中心的總體可用性狀態(tài)提供更深入的理解。
假設(shè)一個(gè)代理商有四臺(tái)完全相同的服務(wù)器,可以承載整個(gè)工作負(fù)載,其中一臺(tái)服務(wù)器可以正常運(yùn)行。這三臺(tái)多余的服務(wù)器實(shí)質(zhì)上是備份,可以在其他系統(tǒng)之一發(fā)生故障的情況下使用。在此示例中,如果一臺(tái)服務(wù)器發(fā)生故障,則該服務(wù)仍然100%可用。但是,系統(tǒng)的健康運(yùn)行狀況會(huì)下降到75%;因此,導(dǎo)致風(fēng)險(xiǎn)上升到25%。這些指標(biāo)很重要,因?yàn)樗鼈兛梢韵璧K執(zhí)行人員對(duì)業(yè)務(wù)服務(wù)進(jìn)行監(jiān)督的障礙。以前,數(shù)據(jù)中心管理員可能會(huì)收到一個(gè)警報(bào),該警報(bào)指示服務(wù)器CPU使用率水平已降至某個(gè)閾值以下。利用更精細(xì)的指標(biāo),利用率警報(bào)可以自動(dòng)觸發(fā)添加另一臺(tái)或兩臺(tái)服務(wù)器以支持更多流量,并且可以自動(dòng)調(diào)整業(yè)務(wù)服務(wù)策略以重新計(jì)算新的運(yùn)行狀況,可用性和風(fēng)險(xiǎn)指標(biāo),而無(wú)需人工干預(yù)。冗余和自我修復(fù)功能應(yīng)納入數(shù)據(jù)中心的每一層。
在數(shù)據(jù)中心優(yōu)化方面,對(duì)健康、可用性和風(fēng)險(xiǎn)的定義不可能一概而論。IT運(yùn)營(yíng)團(tuán)隊(duì)可以定義它們,并根據(jù)需要?jiǎng)?chuàng)建自動(dòng)化和事件策略。隨著越來(lái)越多的軟件定義服務(wù)、人工智能、機(jī)器學(xué)習(xí)和高級(jí)分析進(jìn)入數(shù)據(jù)中心,IT運(yùn)營(yíng)團(tuán)隊(duì)將有更多的方法來(lái)獲取可操作的IT洞察力,了解基礎(chǔ)設(shè)施和應(yīng)用程序之間的相互依賴(lài)性,并自動(dòng)化手動(dòng)任務(wù)以提高效率。業(yè)務(wù)流程和運(yùn)行它們的系統(tǒng)之間的拓?fù)溆成浞椒纱龠M(jìn)自動(dòng)化,包括修復(fù)、配置管理數(shù)據(jù)庫(kù)增強(qiáng)和高級(jí)事件擴(kuò)展,從而減少管理、維護(hù)和故障排除。