升級(jí)仍然是提升數(shù)據(jù)中心 IT 能力的主要手段。它們通過更換老化或性能不佳的 IT 資產(chǎn)來建立彈性、提高性能、降低運(yùn)營(yíng)成本、增強(qiáng)安全性并控制停機(jī)時(shí)間。但升級(jí)總是帶有風(fēng)險(xiǎn)因素:疏忽和錯(cuò)誤可能導(dǎo)致意外停機(jī)、工作負(fù)載可用性問題、性能中斷以及不可接受的管理或安全漏洞。重要的是在第一次成功完成升級(jí),或者至少在出現(xiàn)問題時(shí)有能力有效地回退。
順利、成功和有意義的數(shù)據(jù)中心升級(jí)的關(guān)鍵是準(zhǔn)備。了解目標(biāo)和每個(gè)目標(biāo)的路徑,并在路上遇到障礙,為升級(jí)過程帶來巨大的收益。
1. 了解您的業(yè)務(wù)需求
當(dāng)業(yè)務(wù)領(lǐng)導(dǎo)者選擇不必要的技術(shù)投資或缺乏明確的 ROI 標(biāo)準(zhǔn)時(shí),就會(huì)出現(xiàn)一些成本最高和風(fēng)險(xiǎn)最高的錯(cuò)誤。升級(jí)不應(yīng)作為新技術(shù)的展示,而應(yīng)有助于企業(yè)更有效地運(yùn)營(yíng)和更具競(jìng)爭(zhēng)力。他們應(yīng)該專注于以下方面:
-
擴(kuò)展重要資源,例如存儲(chǔ)或計(jì)算;
-
為更多、新的或更新的應(yīng)用程序啟用新的工作負(fù)載;
-
支持額外的員工、用戶或交易;
-
降低每個(gè)用戶或交易的成本;和
-
構(gòu)建 IT 能力,例如工作負(fù)載彈性、業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)。
2. 確定升級(jí)目標(biāo)
在明確定義業(yè)務(wù)需求的情況下,確定升級(jí)項(xiàng)目的范圍,并確定受升級(jí)影響的硬件、軟件、服務(wù)、策略、流程和工作流。
升級(jí)從來都不是一個(gè)全有或全無的決定。升級(jí)范圍可能非常狹窄和具體,因此請(qǐng)?zhí)崆懊鞔_確定范圍以防止?jié)撛诘臑?zāi)難性疏忽,例如意外的硬件或軟件版本不兼容。
考慮老化的舊工作負(fù)載和依賴于工作負(fù)載的硬件。您可以將重要的工作負(fù)載重新設(shè)計(jì)為更新的軟件產(chǎn)品,在功能強(qiáng)大的新服務(wù)器硬件上部署更新的軟件,并淘汰老化的硬件。在這種情況下,主要升級(jí)目標(biāo)將涉及舊服務(wù)器及其舊應(yīng)用程序。
此外,請(qǐng)考慮次要范圍,例如依賴項(xiàng)。例如,如果那個(gè)老化的應(yīng)用程序依賴于一個(gè)較舊的數(shù)據(jù)庫,您是否必須升級(jí)該數(shù)據(jù)庫及其硬件?應(yīng)用程序或系統(tǒng)管理等實(shí)踐被視為依賴項(xiàng),您應(yīng)該將它們包括在范圍內(nèi)。
3. 創(chuàng)建升級(jí)路線圖
一個(gè)升級(jí)項(xiàng)目或目標(biāo)通常涉及多個(gè)離散的升級(jí)任務(wù)。例如,升級(jí)可能涉及向基礎(chǔ)架構(gòu)添加兩個(gè)服務(wù)器機(jī)架,但這可能還需要增加電源和冷卻能力升級(jí)或增強(qiáng) WAN 訪問。
即使是像服務(wù)器升級(jí)這樣簡(jiǎn)單的事情也可能涉及支持工作。例如,要將 2U 服務(wù)器添加到完整機(jī)架,您可能需要先重新安置一臺(tái)或多臺(tái)其他服務(wù)器以騰出空間。這些考慮可能看起來像細(xì)枝末節(jié),但即使是小細(xì)節(jié)也可能會(huì)延遲升級(jí)。
檢查預(yù)期目標(biāo)及其依賴關(guān)系,并首先確定依賴關(guān)系。這可能是簡(jiǎn)單地重新定位硬件以騰出適當(dāng)?shù)臋C(jī)架空間或升級(jí)支持平臺(tái)(例如數(shù)據(jù)庫及其服務(wù)器)的問題,然后再推出預(yù)期的升級(jí)。
4. 確定升級(jí)技術(shù)
為升級(jí)確定新產(chǎn)品可能就像為存儲(chǔ)升級(jí)選擇新磁盤或?yàn)樾路?wù)器選擇品牌、型號(hào)和負(fù)載一樣簡(jiǎn)單。更大的升級(jí)需要更多的考慮。例如,如果需要更新一組相關(guān)服務(wù)器,請(qǐng)?jiān)u估先進(jìn)技術(shù)平臺(tái)的潛力,例如超融合基礎(chǔ)設(shè)施。
使用不熟悉的硬件和軟件進(jìn)行升級(jí)是災(zāi)難的根源,因此請(qǐng)盡可能在投入使用之前測(cè)試產(chǎn)品。使用動(dòng)手評(píng)估和原理驗(yàn)證項(xiàng)目來驗(yàn)證新的硬件和軟件產(chǎn)品,并了解它們的部署、設(shè)置、配置和互操作性注意事項(xiàng)。
5. 清理或增強(qiáng)現(xiàn)有基礎(chǔ)設(shè)施
數(shù)據(jù)中心中的一切都有一個(gè)生命周期,而老化的基礎(chǔ)設(shè)施可能會(huì)對(duì)業(yè)務(wù)構(gòu)成障礙。當(dāng)您審查基礎(chǔ)架構(gòu)以確定升級(jí)的范圍和要求時(shí),請(qǐng)花更多時(shí)間考慮可能不會(huì)直接影響預(yù)期升級(jí)但仍可以在更廣泛的意義上使業(yè)務(wù)和基礎(chǔ)架構(gòu)受益的任務(wù)或項(xiàng)目,包括以下內(nèi)容:
-
為關(guān)鍵應(yīng)用程序增加冗余;
-
從不再需要它的應(yīng)用程序中刪除冗余;
-
更新老化的布線以促進(jìn)更大的網(wǎng)絡(luò)帶寬;
-
更新配電和備用電源,例如配電單元和不間斷電源子系統(tǒng);
-
重新定位機(jī)架并關(guān)閉開放的硬件間隙以增強(qiáng)冷卻氣流;和
-
審查系統(tǒng)管理工具和功能。
6. 準(zhǔn)備文件
大多數(shù)數(shù)據(jù)中心硬件和軟件都需要各種各樣的部署細(xì)節(jié)。詳細(xì)信息包括默認(rèn)網(wǎng)絡(luò)地址、許可數(shù)據(jù)(例如激活碼)以及設(shè)置和配置的詳細(xì)說明(例如產(chǎn)品手冊(cè)和用戶指南)。
組織這些數(shù)據(jù),并在啟動(dòng)升級(jí)任務(wù)之前確保一切可用。否則,由于缺少詳細(xì)信息,業(yè)務(wù)將面臨無法接受的延誤和不必要的取消風(fēng)險(xiǎn)。例如,新軟件產(chǎn)品可能需要許可證號(hào)或激活碼。IT 人員不想在凌晨 2 點(diǎn)執(zhí)行升級(jí)時(shí)爭(zhēng)先恐后地獲取此信息,因?yàn)榇藭r(shí)供應(yīng)商的銷售和支持人員可能無法及時(shí)響應(yīng)。
7. 備份并準(zhǔn)備恢復(fù)
當(dāng)今的虛擬化數(shù)據(jù)中心環(huán)境使得將工作負(fù)載轉(zhuǎn)移到其他服務(wù)器變得相對(duì)容易,這使您能夠更換和配置空服務(wù)器。同時(shí),您可以使用復(fù)制或快照技術(shù)復(fù)制在 VM 內(nèi)運(yùn)行的工作負(fù)載。盡管如此,錯(cuò)誤和意想不到的后果還是會(huì)發(fā)生,即使是看似簡(jiǎn)單的升級(jí)也可能會(huì)匆忙橫掃。在升級(jí)之前和升級(jí)期間,使用簡(jiǎn)單的指導(dǎo)方針為最壞的情況做好準(zhǔn)備,例如:
-
對(duì)升級(jí)過程中涉及的任何服務(wù)器應(yīng)用程序或存儲(chǔ)系統(tǒng)執(zhí)行完整備份;
-
測(cè)試修復(fù)過程并確保修復(fù)工作;
-
確保所有參與升級(jí)任務(wù)的 IT 人員都能成功執(zhí)行恢復(fù)或回滾;
-
記錄現(xiàn)有硬件和軟件的當(dāng)前配置——即使你計(jì)劃淘汰這些產(chǎn)品——以便在必要時(shí)將它們恢復(fù)到已知的工作狀態(tài);和
-
記錄升級(jí)期間發(fā)生的所有更改——例如更改 IP 地址或?qū)?VM 移動(dòng)到不同的物理服務(wù)器——并確保這些更改反映在系統(tǒng)或更改管理工具中。
升級(jí)可能會(huì)中斷常規(guī)業(yè)務(wù)并使重要的工作負(fù)載長(zhǎng)時(shí)間不可用。這會(huì)影響員工、業(yè)務(wù)合作伙伴、客戶和業(yè)務(wù)領(lǐng)導(dǎo)者。數(shù)據(jù)中心升級(jí)應(yīng)始終將利益相關(guān)者納入流程。
升級(jí)項(xiàng)目通常涉及許多任務(wù)。因此,單獨(dú)處理每項(xiàng)任務(wù),并將其傳達(dá)給利益相關(guān)者。常見的通信包括以下內(nèi)容:
-
告訴利益相關(guān)者計(jì)劃進(jìn)行哪些升級(jí),為什么需要進(jìn)行這項(xiàng)工作,應(yīng)該提供哪些更改或新功能以及工作何時(shí)進(jìn)行;
-
提醒利益相關(guān)者升級(jí)計(jì)劃——通常包括導(dǎo)致實(shí)際升級(jí)任務(wù)的幾個(gè)提醒;
-
如果您遇到問題或延誤,向利益相關(guān)者發(fā)送更新;和
-
升級(jí)任務(wù)完成并恢復(fù)正常功能后,向利益相關(guān)者發(fā)送完全清除通知。
9. 驗(yàn)證部署
完成升級(jí)任務(wù)后,測(cè)試并驗(yàn)證硬件或軟件部署是否正常工作。例如,新服務(wù)器應(yīng)該運(yùn)行良好并具有安全配置。當(dāng)您重新安裝或?qū)⒐ぷ髫?fù)載遷移回服務(wù)器時(shí),這些工作負(fù)載應(yīng)該可以通過本地?cái)?shù)據(jù)中心網(wǎng)絡(luò)訪問。在這個(gè)階段,IT 人員必須對(duì)性能進(jìn)行基準(zhǔn)測(cè)試和衡量,對(duì)升級(jí)問題進(jìn)行故障排除和修復(fù),或者在需要時(shí)執(zhí)行回滾。只有當(dāng)您知道一切都按預(yù)期工作時(shí),您才應(yīng)該在企業(yè) LAN 或 Internet 上打開資源以供一般使用。
升級(jí)可能會(huì)破壞系統(tǒng)或應(yīng)用程序管理工具。捕獲所有數(shù)據(jù)中心系統(tǒng)和安全管理工具中升級(jí)任務(wù)所涉及的任何更改,或準(zhǔn)備使用您收集的文檔手動(dòng)輸入更改。一些管理平臺(tái)需要額外安裝代理或驅(qū)動(dòng)程序,然后管理工具才能正確監(jiān)督新資產(chǎn)。
10. 必要時(shí)系統(tǒng)地展開部署
分階段推出涉及高度不確定性或風(fēng)險(xiǎn)的升級(jí)項(xiàng)目。例如,更新任務(wù)關(guān)鍵型遺留應(yīng)用程序及其相關(guān)硬件涉及同時(shí)部署新資產(chǎn)——與當(dāng)前資產(chǎn)并行——并打開環(huán)境部分進(jìn)行 beta 測(cè)試,而不是簡(jiǎn)單地在升級(jí)中替換應(yīng)用程序和硬件。這可以最大限度地減少升級(jí)上線后不可預(yù)見的問題的影響,因?yàn)樵加布蛙浖匀豢捎们铱刹僮鳌?br />
如果新資產(chǎn)按預(yù)期運(yùn)行,您可以系統(tǒng)地將其他用戶組遷移到新資產(chǎn)。當(dāng)您成功遷移所有用戶并徹底驗(yàn)證新資產(chǎn)后,您可以將任何舊資產(chǎn)作為較小的清理升級(jí)任務(wù)停用并刪除。
11. 考慮數(shù)據(jù)中心標(biāo)準(zhǔn)
對(duì)數(shù)據(jù)中心的設(shè)計(jì)、實(shí)施、性能或可用性沒有既定要求。然而,政府、利益相關(guān)者、合作伙伴和客戶已經(jīng)開始期望在一定程度上遵守某些標(biāo)準(zhǔn)。升級(jí)項(xiàng)目是檢查數(shù)據(jù)中心標(biāo)準(zhǔn)并考慮采用現(xiàn)有標(biāo)準(zhǔn)的價(jià)值的絕佳機(jī)會(huì)。
眾多代碼和最佳實(shí)踐標(biāo)準(zhǔn)可以驗(yàn)證您的數(shù)據(jù)中心,包括 Uptime Institute、電信行業(yè)協(xié)會(huì) 942、美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)/BICSI 002-2014、EN 50600 和一系列可選標(biāo)準(zhǔn),例如能源和環(huán)境設(shè)計(jì)領(lǐng)導(dǎo)力、綠色地球儀和能源之星。了解每個(gè)標(biāo)準(zhǔn)的作用,評(píng)估其重要性或?qū)δ臉I(yè)務(wù)的好處,并計(jì)劃實(shí)施所需的標(biāo)準(zhǔn)作為正在進(jìn)行的數(shù)據(jù)中心升級(jí)項(xiàng)目的一部分。