2020-12-16 作者:Stephen J. Bigelow 來(lái)源:企業(yè)網(wǎng)D1Net 閱讀:
次
托管提供商主要提供數據中心的空間、電源、冷卻、物理安全性,但托管服務(wù)也面臨數據中心停機期間響應速度較慢的潛在缺點(diǎn)。采用托管服務(wù)的組織必須仔細規劃重要數據的存儲位置,并遵循服務(wù)級別協(xié)議,以最大程度地減少托管數據中心服務(wù)中斷的影響。
當然,組織可以自己建設和運營(yíng)內部部署數據中心,擁有、建設和維護基礎設施和設備,雇傭員工,實(shí)施政策和運行應用程序,并設定應對任何中斷所需的優(yōu)先級。當遇到問(wèn)題時(shí),組織領(lǐng)導者知道讓誰(shuí)處理,并且員工可以專(zhuān)注于組織的利益。
作為托管服務(wù)商客戶(hù)的組織來(lái)說(shuō),這些控制權交給托管服務(wù)提供商,他們負責故障排除并與客戶(hù)保持聯(lián)系。但是托管服務(wù)提供商通常是為了自己的商業(yè)利益而運營(yíng)的企業(yè),有時(shí)并不能滿(mǎn)足托管客戶(hù)的需求。
是什么導致托管數據中心停機?
托管服務(wù)提供商以遠程管理的數據中心為核心,通??梢詫祿行牡耐C追溯到許多可能影響內部部署數據中心面臨的相同問(wèn)題。停機的原因一般分為四類(lèi):電源、人員、災難、連接。
(1) 電源。托管服務(wù)提供商通常在其數據中心內實(shí)現更大的彈性,例如備用電源系統。其備用電源包括為服務(wù)器和機架設備供電的不間斷電源(UPS),以及在市電中斷時(shí)可以為數據中心設施供電的工業(yè)級備用發(fā)電機。但是,UPS故障、發(fā)電機啟動(dòng)或維護不足以及備用電源系統的其他問(wèn)題,可能會(huì )在市電停電時(shí)導致托管客戶(hù)的業(yè)務(wù)中斷。
(2) 人員。人為錯誤是造成數據中心停機的主要原因。例如配置錯誤的路由器、服務(wù)器、身份驗證系統以及硬件和軟件基礎設施其他錯誤可能導致客戶(hù)無(wú)法訪(fǎng)問(wèn)系統。內部和外部攻擊或其他惡意活動(dòng)(如拒絕服務(wù)攻擊)也可以干擾或破壞客戶(hù)所托管的工作負載。
(3) 災難??蛻?hù)希望托管數據中心設施具有更強的彈性和更高的可靠性,因此通常希望遠離自然災難(颶風(fēng)、洪水、地震等)和人為災難(火災、車(chē)禍和戰爭)。雖然謹慎的托管措施應該可以減少這種風(fēng)險,但不可能完全避免和消除,而不可預見(jiàn)的災難會(huì )使托管數據中心設施癱瘓或毀壞。
(4) 連接。托管服務(wù)本質(zhì)上是遠程實(shí)施的,而WAN或互聯(lián)網(wǎng)連接對于托管服務(wù)提供商至關(guān)重要。大多數托管服務(wù)提供商都允許客戶(hù)使用一個(gè)或多個(gè)可用電信提供商的服務(wù)。電信基礎設施也不完善,也不是100%可靠的,這可能會(huì )導致使用某些電信服務(wù)的客戶(hù)連接中斷。在這種情況下,必須由電信提供商(而不是托管服務(wù)提供商)來(lái)恢復服務(wù),但是對這些托管客戶(hù)的影響可能像發(fā)生火災或洪水一樣嚴重。
對內部和外部場(chǎng)所進(jìn)行故障排除
作為托管數據中心客戶(hù)的組織在解決托管數據中心發(fā)生的故障尤其具有挑戰性,因為解決問(wèn)題的過(guò)程首先取決于識別/確定問(wèn)題,然后確定托管數據中心提供商(或客戶(hù))是否對故障和糾正措施負責。
傳統托管數據中心
例如,假設客戶(hù)的工作負載在傳統托管數據心設施中運行,并且托管服務(wù)提供商只提供空間、電源、制冷和其他服務(wù)。如果數據中心設施出現故障(例如電源故障),則客戶(hù)將依賴(lài)托管提供商提供的電力服務(wù),并且托管服務(wù)提供商將根據現行服務(wù)等級協(xié)議(SLA)的條款負責查找和糾正電源問(wèn)題。而根據問(wèn)題的嚴重程度,修復過(guò)程可能需要數小時(shí)甚至數天的時(shí)間。
但是,客戶(hù)仍將負責部署到托管服務(wù)提供商的所有服務(wù)器、存儲、網(wǎng)絡(luò )和其他業(yè)務(wù)設備。服務(wù)器、存儲子系統、網(wǎng)絡(luò )交換機故障,甚至是應用程序故障(軟件錯誤)可能是造成停機的原因??蛻?hù)將采用系統管理工具監視和報告硬件和軟件的狀態(tài),他們有責任找到并解決問(wèn)題,可能是通過(guò)重新啟動(dòng)服務(wù)器、更換服務(wù)器或采用其他潛在的修復方法。
如果客戶(hù)確實(shí)要負責修復,他們將面臨完成工作的挑戰。對出現故障的應用程序進(jìn)行修復和排除可能需要實(shí)際操作,這可能需要數小時(shí)來(lái)部署人員和執行修復所涉及的實(shí)際工作。在某些情況下,托管服務(wù)提供商的員工將會(huì )提供幫助,但需要客戶(hù)額外付費。
托管或托管主機
在托管數據中心或托管方案中,托管服務(wù)提供商將提供數據中心空間、服務(wù)器、存儲設備、網(wǎng)絡(luò )以及其他基礎設施,而客戶(hù)可以從托管服務(wù)提供商那里租用。但是,托管服務(wù)提供商對整個(gè)基礎設施負有全部責任,客戶(hù)不用接觸或關(guān)注托管服務(wù)提供商的基礎設施。如果托管數據中心設施或計算資源發(fā)生故障,則托管服務(wù)提供商必須處理并發(fā)布停機通知,然后按照服務(wù)等級協(xié)議(SLA)中規定的條款對故障進(jìn)行故障排除和補救。在這種情況下,客戶(hù)通常會(huì )通過(guò)已建立的支持渠道(例如電子郵件、電話(huà)或門(mén)戶(hù)網(wǎng)站)將故障告知托管服務(wù)提供商(例如某個(gè)應用程序無(wú)法正常工作)。
如果問(wèn)題實(shí)際上出在客戶(hù)的應用程序而不是托管服務(wù)提供商的基礎設施(即托管數據中心設施正常運行,但是客戶(hù)的應用程序遭受崩潰或其他異常),那么托管服務(wù)提供商就沒(méi)有更多的義務(wù)來(lái)確定客戶(hù)的應用程序是否正常工作??蛻?hù)必須具有適當的監視以跟蹤應用程序運行狀況或了解應用程序性能。當應用程序出現問(wèn)題時(shí),客戶(hù)的IT團隊可以選擇遠程操作重新啟動(dòng)應用程序,或者要求托管服務(wù)提供商幫助采取糾正措施。
托管數據中心支持的類(lèi)型
當出現問(wèn)題時(shí),組織必須找到快速且經(jīng)濟高效的方法來(lái)解決問(wèn)題,同時(shí)保持行業(yè)標準或法規遵從性所要求的數據完整性和工作負載安全性??蛻?hù)可以使用四種類(lèi)型的支持:
(1) 工作人員。當客戶(hù)將自己的設備部署在托管設施中時(shí),可能會(huì )自己雇傭IT員工管理和維護,而不是托管服務(wù)提供商。這有助于確保IT任務(wù)的執行符合客戶(hù)的最佳利益,但是其員工到路途遙遠的托管數據中心工作可能既耗時(shí)又會(huì )增加成本。
(2) 遠程控制??蛻?hù)可以聘請托管服務(wù)提供商的員工協(xié)助開(kāi)展各種IT任務(wù)。這些任務(wù)可能包括物理設備故障排除、更換、配置。通常根據突發(fā)事件或請求遠程操作,并且其費用將添加到客戶(hù)的每月賬單中。
(3) 遠程管理?,F代IT系統管理工具擅長(cháng)通過(guò)網(wǎng)絡(luò )訪(fǎng)問(wèn)硬件設備以執行常見(jiàn)的管理任務(wù)。這些工具通??梢灾匦聠?dòng)服務(wù)器、重新啟動(dòng)應用程序、遷移虛擬機以及備份和恢復數據。遠程管理在管理日常任務(wù)時(shí)非常有效,無(wú)需客戶(hù)派遣員工在托管數據中心工作。
(4) 托管服務(wù)。托管服務(wù)提供商通常提供客戶(hù)可以參與的一系列服務(wù),例如托管電子郵件。某些服務(wù)費用可能會(huì )添加到每月的托管費用中,而某些服務(wù)(例如備份)可能會(huì )帶來(lái)額外的費用。但是,托管服務(wù)提供商通??梢詤⑴c添加新服務(wù),更改現有服務(wù)或減少或取消不需要的服務(wù)。
減輕數據中心托管設置中的不確定性
托管服務(wù)提供商可能會(huì )給客戶(hù)帶來(lái)更多不確定性和復雜性。在偏遠地區運營(yíng)的托管數據中心設施可能會(huì )受到地緣政治不確定性和安全性問(wèn)題的影響。托管服務(wù)提供商管理成本的愿望可能會(huì )削減支持人員數量,從而可能降低其響應能力。托管服務(wù)提供商的合并和請求可能會(huì )影響其日常運營(yíng)。
客戶(hù)可以通過(guò)謹慎的應急計劃和大量監控措施來(lái)緩解這些托管問(wèn)題。常見(jiàn)步驟包括:
工作負載適用性。必須評估每個(gè)應用程序在托管數據中心中的適用性。由于法規遵從性、安全性、性能或其他問(wèn)題,并非所有應用程序都適合托管。有些工作負載應該保留在內部部署數據中心。
遣返。如果托管服務(wù)失敗或證明托管不適合應用程序時(shí),則遷移到托管數據中心的每個(gè)工作負載都應采取遣返措施,可以在組織的內部部署數據中心恢復應用程序。
備份和災難恢復。托管工作負載并不保證可用性。重要的工作負載可能需要額外的托管服務(wù)投資,以建立備份和災難恢復框架,以確保應用程序在托管服務(wù)中運行時(shí)的可用性。托管服務(wù)提供商在默認情況下不提供此類(lèi)服務(wù)。
詳細監控。使用監視工具(例如應用程序性能監視)和用于重要工作負載的工具來(lái)跟蹤應用程序的運行狀況和性能,以及托管服務(wù)提供商及其資源的可用性。了解托管服務(wù)提供商的服務(wù)等級協(xié)議(SLA),并使用監控結果來(lái)驗證托管服務(wù)提供商是否遵守服務(wù)等級協(xié)議(SLA)。
尋求幫助。托管服務(wù)提供商將提供各種幫助臺以尋求支持??蛻?hù)應該清楚了解可用的幫助,如何請求幫助,以及在必要時(shí)如何采取行動(dòng)并及時(shí)采取糾正措施。
歸根結底,托管服務(wù)提供商是客戶(hù)的業(yè)務(wù)合作伙伴(而不是員工),并且托管服務(wù)提供商提供的資源和服務(wù)不能被認為是理所當然的??蛻?hù)有責任管理自己在托管數據中心環(huán)境中運行的工作負載,并且需要能夠與托管服務(wù)提供商協(xié)作以維護每個(gè)工作負載的可用性和性能。