本文為大家介紹數(shù)據(jù)中心斷電事故(數(shù)據(jù)中心 停電),下面和小編一起看看詳細(xì)內(nèi)容吧。
數(shù)據(jù)中心最不愿意看到的就是停電,這會給運(yùn)維人員帶來很多麻煩,所以很多數(shù)據(jù)中心都愿意接受ups供電,尤其是在線式ups供電。
近期,很多企業(yè)都受到數(shù)據(jù)中心停電的困擾,比如達(dá)美航空數(shù)據(jù)中心停電,造成的經(jīng)濟(jì)損失高達(dá)1.5億美元。又如美國超級碗賽場停電,延誤了比賽日程。
數(shù)據(jù)中心在運(yùn)維過程中面臨著很多挑戰(zhàn),比如數(shù)據(jù)中心的運(yùn)營成本,需要在數(shù)據(jù)中心建立前做好預(yù)算和規(guī)劃,以及數(shù)據(jù)中心的使用對于能源成本的云托管,可以通過使用虛擬化和云托管等新技術(shù)來緩解不斷上升的能源成本,這可以大大降低能源成本。
另一個例子是維護(hù)和冷卻要求。數(shù)據(jù)中心設(shè)施和組件需要全天不間斷地在合適的溫度下工作,這就需要一個完整的冷卻系統(tǒng)來維持所需的溫度。
事實上,數(shù)據(jù)中心也面臨通信融合、基礎(chǔ)設(shè)施需求、資源匱乏、服務(wù)器效率、數(shù)據(jù)中心安全和網(wǎng)絡(luò)擁塞等挑戰(zhàn)。其中,數(shù)據(jù)中心的挑戰(zhàn)也占據(jù)了重要的位置,那么是什么原因?qū)е峦k娔兀窟\(yùn)營商誤操作、停電、或服務(wù)器過載,導(dǎo)致系統(tǒng)崩潰。
雖然數(shù)據(jù)中心停電是一個嚴(yán)重的問題,但我們還是希望有相關(guān)的解決方案。
在這里,我們需要確定幾個問題。
隨著數(shù)據(jù)中心的變化,電源系統(tǒng)升級
可以說,數(shù)據(jù)中心不同階段對電力的需求也在不斷變化。例如,添加服務(wù)器或交換機(jī)可能會產(chǎn)生巨大的電力需求。很重要。此外,還需要對數(shù)據(jù)中心的供電情況進(jìn)行合理評估,防止數(shù)據(jù)中心過載、供電不足導(dǎo)致停電。
了解所有連接的設(shè)備和系統(tǒng)的一切
對于數(shù)據(jù)中心運(yùn)營至關(guān)重要的是,電源鏈需要一起記錄,從電源進(jìn)入大樓,通過ups、pdu/到所有機(jī)架設(shè)備。
這意味著數(shù)據(jù)中心運(yùn)營需要知道有哪些電源相關(guān)的設(shè)備以及它們各自的相互依賴關(guān)系。這使得數(shù)據(jù)中心運(yùn)營可以了解某些設(shè)備出現(xiàn)故障或下線維修時的潛在影響。此外,每個動力鏈設(shè)備的狀態(tài)應(yīng)該是已知的。
電源管理可以通過使用數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(dcim) 來實現(xiàn)。 dcim 使數(shù)據(jù)中心運(yùn)營能夠以最高效率運(yùn)行數(shù)據(jù)中心,同時允許所有相關(guān)人員改善整體運(yùn)營情況并找出差距以保持電力鏈的安全。
部署的dcim還可以讓數(shù)據(jù)中心運(yùn)營充分了解自身產(chǎn)品,通過共享實時數(shù)據(jù)和通俗易懂的圖表,消除it與設(shè)施之間的溝通孤島。
確保電力系統(tǒng)不受攻擊或威脅
數(shù)據(jù)中心通過網(wǎng)絡(luò)連接。當(dāng)然,除了基礎(chǔ)框架中包含的終端和接入點(diǎn)之外,很多通道都可能成為破壞數(shù)據(jù)中心的途徑。因此,保護(hù)這些通道不受破壞就成為了數(shù)據(jù)中心建設(shè)中需要考慮的問題。
在這里,網(wǎng)絡(luò)攻擊成為可能。很多黑客可能不會直接破壞供電系統(tǒng),而是通過網(wǎng)絡(luò)進(jìn)入數(shù)據(jù)中心,達(dá)到破壞數(shù)據(jù)中心供電的目的。
另外,不僅要防止黑客通過網(wǎng)絡(luò)手段破壞數(shù)據(jù)中心,還要防止內(nèi)部人員破壞。一些工作人員可能會因為自己的經(jīng)驗不足和一個小失誤而中斷數(shù)據(jù)中心的供電。
因此,為了防止通過上述手段進(jìn)行破壞,建立運(yùn)維文檔和過程控制非常重要。在這里,使用更多硬件并不是防止災(zāi)難性中斷的最佳選擇,使用軟件級管理可能更安全。
不妨模擬更多的故障安全測試并制定完整的災(zāi)難恢復(fù)計劃
在數(shù)據(jù)中心訪問運(yùn)營的過程中,難免會出現(xiàn)一些故障。所謂有備無患,萬一真有bug,還不如以前遇到過或者模擬過錯誤的場景。處理失敗的經(jīng)驗。在此,我們建議在不影響業(yè)務(wù)環(huán)境的情況下,對數(shù)據(jù)中心進(jìn)行停電測試,使用虛擬開關(guān)柜,讓數(shù)據(jù)中心運(yùn)營能夠應(yīng)對最壞的情況,并進(jìn)行恢復(fù)。
數(shù)據(jù)中心人員總是假設(shè)他們的電源鏈和電源備份系統(tǒng)是萬無一失的,但如果沒有故障安全測試,他們認(rèn)為他們會面臨什么樣的結(jié)果?電源故障模擬使數(shù)據(jù)中心運(yùn)營提供商可以定位缺乏冗余的設(shè)施并發(fā)現(xiàn)單點(diǎn)故障。但是,這需要記錄在案。因此,在災(zāi)難性停電之前,數(shù)據(jù)中心運(yùn)營建立了停電檢測機(jī)制,并記錄其恢復(fù)過程。
數(shù)據(jù)中心建設(shè)應(yīng)實時監(jiān)控運(yùn)行情況
數(shù)據(jù)中心的實時監(jiān)控運(yùn)行是為了以防萬一,所以數(shù)據(jù)中心運(yùn)營provider必須知道設(shè)備放在哪里,用了多少電。雖然這在基礎(chǔ)設(shè)施不斷增加的數(shù)據(jù)中心很難做到,并且有可能對電池容量和配電產(chǎn)生巨大影響,但關(guān)注所有移動部件的唯一方法是通過實時監(jiān)控和警報功能使數(shù)據(jù)中心運(yùn)營提供商能夠降低風(fēng)險并進(jìn)行更改以避免災(zāi)難。
最后,一旦數(shù)據(jù)中心斷電,造成的經(jīng)濟(jì)損失是無法估量的。最好從上述方法入手,保護(hù)好數(shù)據(jù)中心的每一個環(huán)節(jié),才能更好地運(yùn)維數(shù)據(jù)中心。
好了,數(shù)據(jù)中心斷電事故(數(shù)據(jù)中心 停電)的介紹到這里就結(jié)束了,想知道更多相關(guān)資料可以收藏我們的網(wǎng)站。