本文為大家介紹數(shù)據(jù)中心斷電事故(數(shù)據(jù)中心 停電),下面和小編一起看看詳細(xì)內(nèi)容吧。
數(shù)據(jù)中心最不愿意看到的就是停電,這會(huì)給運(yùn)維人員帶來(lái)很多麻煩,所以很多數(shù)據(jù)中心都愿意接受ups供電,尤其是在線式ups供電。
近期,很多企業(yè)都受到數(shù)據(jù)中心停電的困擾,比如達(dá)美航空數(shù)據(jù)中心停電,造成的經(jīng)濟(jì)損失高達(dá)1.5億美元。又如美國(guó)超級(jí)碗賽場(chǎng)停電,延誤了比賽日程。
數(shù)據(jù)中心在運(yùn)維過(guò)程中面臨著很多挑戰(zhàn),比如數(shù)據(jù)中心的運(yùn)營(yíng)成本,需要在數(shù)據(jù)中心建立前做好預(yù)算和規(guī)劃,以及數(shù)據(jù)中心的使用對(duì)于能源成本的云托管,可以通過(guò)使用虛擬化和云托管等新技術(shù)來(lái)緩解不斷上升的能源成本,這可以大大降低能源成本。
另一個(gè)例子是維護(hù)和冷卻要求。數(shù)據(jù)中心設(shè)施和組件需要全天不間斷地在合適的溫度下工作,這就需要一個(gè)完整的冷卻系統(tǒng)來(lái)維持所需的溫度。
事實(shí)上,數(shù)據(jù)中心也面臨通信融合、基礎(chǔ)設(shè)施需求、資源匱乏、服務(wù)器效率、數(shù)據(jù)中心安全和網(wǎng)絡(luò)擁塞等挑戰(zhàn)。其中,數(shù)據(jù)中心的挑戰(zhàn)也占據(jù)了重要的位置,那么是什么原因?qū)е峦k娔兀窟\(yùn)營(yíng)商誤操作、停電、或服務(wù)器過(guò)載,導(dǎo)致系統(tǒng)崩潰。
雖然數(shù)據(jù)中心停電是一個(gè)嚴(yán)重的問(wèn)題,但我們還是希望有相關(guān)的解決方案。
在這里,我們需要確定幾個(gè)問(wèn)題。
隨著數(shù)據(jù)中心的變化,電源系統(tǒng)升級(jí)
可以說(shuō),數(shù)據(jù)中心不同階段對(duì)電力的需求也在不斷變化。例如,添加服務(wù)器或交換機(jī)可能會(huì)產(chǎn)生巨大的電力需求。很重要。此外,還需要對(duì)數(shù)據(jù)中心的供電情況進(jìn)行合理評(píng)估,防止數(shù)據(jù)中心過(guò)載、供電不足導(dǎo)致停電。
了解所有連接的設(shè)備和系統(tǒng)的一切
對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)至關(guān)重要的是,電源鏈需要一起記錄,從電源進(jìn)入大樓,通過(guò)ups、pdu/到所有機(jī)架設(shè)備。
這意味著數(shù)據(jù)中心運(yùn)營(yíng)需要知道有哪些電源相關(guān)的設(shè)備以及它們各自的相互依賴(lài)關(guān)系。這使得數(shù)據(jù)中心運(yùn)營(yíng)可以了解某些設(shè)備出現(xiàn)故障或下線維修時(shí)的潛在影響。此外,每個(gè)動(dòng)力鏈設(shè)備的狀態(tài)應(yīng)該是已知的。
電源管理可以通過(guò)使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(dcim) 來(lái)實(shí)現(xiàn)。 dcim 使數(shù)據(jù)中心運(yùn)營(yíng)能夠以最高效率運(yùn)行數(shù)據(jù)中心,同時(shí)允許所有相關(guān)人員改善整體運(yùn)營(yíng)情況并找出差距以保持電力鏈的安全。
部署的dcim還可以讓數(shù)據(jù)中心運(yùn)營(yíng)充分了解自身產(chǎn)品,通過(guò)共享實(shí)時(shí)數(shù)據(jù)和通俗易懂的圖表,消除it與設(shè)施之間的溝通孤島。
確保電力系統(tǒng)不受攻擊或威脅
數(shù)據(jù)中心通過(guò)網(wǎng)絡(luò)連接。當(dāng)然,除了基礎(chǔ)框架中包含的終端和接入點(diǎn)之外,很多通道都可能成為破壞數(shù)據(jù)中心的途徑。因此,保護(hù)這些通道不受破壞就成為了數(shù)據(jù)中心建設(shè)中需要考慮的問(wèn)題。
在這里,網(wǎng)絡(luò)攻擊成為可能。很多黑客可能不會(huì)直接破壞供電系統(tǒng),而是通過(guò)網(wǎng)絡(luò)進(jìn)入數(shù)據(jù)中心,達(dá)到破壞數(shù)據(jù)中心供電的目的。
另外,不僅要防止黑客通過(guò)網(wǎng)絡(luò)手段破壞數(shù)據(jù)中心,還要防止內(nèi)部人員破壞。一些工作人員可能會(huì)因?yàn)樽约旱慕?jīng)驗(yàn)不足和一個(gè)小失誤而中斷數(shù)據(jù)中心的供電。
因此,為了防止通過(guò)上述手段進(jìn)行破壞,建立運(yùn)維文檔和過(guò)程控制非常重要。在這里,使用更多硬件并不是防止災(zāi)難性中斷的最佳選擇,使用軟件級(jí)管理可能更安全。
不妨模擬更多的故障安全測(cè)試并制定完整的災(zāi)難恢復(fù)計(jì)劃
在數(shù)據(jù)中心訪問(wèn)運(yùn)營(yíng)的過(guò)程中,難免會(huì)出現(xiàn)一些故障。所謂有備無(wú)患,萬(wàn)一真有bug,還不如以前遇到過(guò)或者模擬過(guò)錯(cuò)誤的場(chǎng)景。處理失敗的經(jīng)驗(yàn)。在此,我們建議在不影響業(yè)務(wù)環(huán)境的情況下,對(duì)數(shù)據(jù)中心進(jìn)行停電測(cè)試,使用虛擬開(kāi)關(guān)柜,讓數(shù)據(jù)中心運(yùn)營(yíng)能夠應(yīng)對(duì)最壞的情況,并進(jìn)行恢復(fù)。
數(shù)據(jù)中心人員總是假設(shè)他們的電源鏈和電源備份系統(tǒng)是萬(wàn)無(wú)一失的,但如果沒(méi)有故障安全測(cè)試,他們認(rèn)為他們會(huì)面臨什么樣的結(jié)果?電源故障模擬使數(shù)據(jù)中心運(yùn)營(yíng)提供商可以定位缺乏冗余的設(shè)施并發(fā)現(xiàn)單點(diǎn)故障。但是,這需要記錄在案。因此,在災(zāi)難性停電之前,數(shù)據(jù)中心運(yùn)營(yíng)建立了停電檢測(cè)機(jī)制,并記錄其恢復(fù)過(guò)程。
數(shù)據(jù)中心建設(shè)應(yīng)實(shí)時(shí)監(jiān)控運(yùn)行情況
數(shù)據(jù)中心的實(shí)時(shí)監(jiān)控運(yùn)行是為了以防萬(wàn)一,所以數(shù)據(jù)中心運(yùn)營(yíng)provider必須知道設(shè)備放在哪里,用了多少電。雖然這在基礎(chǔ)設(shè)施不斷增加的數(shù)據(jù)中心很難做到,并且有可能對(duì)電池容量和配電產(chǎn)生巨大影響,但關(guān)注所有移動(dòng)部件的唯一方法是通過(guò)實(shí)時(shí)監(jiān)控和警報(bào)功能使數(shù)據(jù)中心運(yùn)營(yíng)提供商能夠降低風(fēng)險(xiǎn)并進(jìn)行更改以避免災(zāi)難。
最后,一旦數(shù)據(jù)中心斷電,造成的經(jīng)濟(jì)損失是無(wú)法估量的。最好從上述方法入手,保護(hù)好數(shù)據(jù)中心的每一個(gè)環(huán)節(jié),才能更好地運(yùn)維數(shù)據(jù)中心。
好了,數(shù)據(jù)中心斷電事故(數(shù)據(jù)中心 停電)的介紹到這里就結(jié)束了,想知道更多相關(guān)資料可以收藏我們的網(wǎng)站。