搬遷實施方案必須貼近實際,在內容上周密細致、切實可行,其中重點是如何保障網絡遷移的平滑。
隨著近些年信息化建設步伐的加快,舊的機房已逐漸無法適應現(xiàn)代化的信息化應用和管理,新建容災機房,改造舊機房等新需求正變?yōu)楝F(xiàn)實。相對來說,在經費充足的情況下,新建或改造一座機房并不是那么困難,如何搬機房才是真正的難點。我們或許考慮過兩座機房該如何容災,考慮過業(yè)務系統(tǒng)如何高可用,考慮過單點故障時有哪些可應急的方案,但是,當我們要搬移這些網絡和計算設備時,之前的所有考慮都還能管用么?
毫無疑問,機房的搬遷工作是一項復雜的工程,不僅要把網絡、計算、存儲等各類生產設備安全遷移到新機房,而且要求網絡系統(tǒng)的遷移和集中存儲系統(tǒng)的遷移必須安全、平穩(wěn),甚至達到不停機,不影響業(yè)務系統(tǒng)應用的要求。基于此,機房搬遷的風險點更加難以控制,技術難點也比初始部署或技術改造更為繁瑣。
雖然高校的業(yè)務還尚未達到極致的24小時×7天的連續(xù)性需求,但保證業(yè)務連續(xù)性仍然是數(shù)據(jù)中心搬遷過程最核心的要求,網絡保障則是機房搬遷成敗的關鍵。
中南民族大學原有舊機房建于1999年,面積約70平方米,在配電、空調制冷、機柜容量、潔凈度等方面已遠遠落后于當前信息化發(fā)展水平。經過“十二五”期間的數(shù)字化校園建設,逐漸改造或新建了邊界網絡、核心網絡、數(shù)據(jù)中心網絡、數(shù)據(jù)中心計算資源池等關鍵基礎設施。在學校的大力支持下,于2014年末立項新建了兩座機房,分別位于校內相隔1千米的兩座建筑物內,功能上分為容災機房和新的主機房,每座機房面積約120平方米,至2015年兩座機房分別竣工,將舊機房設備和業(yè)務分別遷移到兩座新機房,最后拆除舊機房。
按照機房和數(shù)字化校園的建設規(guī)劃,網絡、計算、存儲等主體架構設施都是雙活設計,雙活的實現(xiàn)也成為本次搬遷可利用的技術要點和有利條件,它使搬遷具備了不停機、不斷網的可能。
理清搬遷思路
總體來說,本次搬遷規(guī)劃分為兩個階段:第一個階段為舊機房搬遷到容災機房,使容災機房具備完全獨立承載全校網絡和業(yè)務的能力;第二個階段為舊機房斷電,剩余全部設備搬遷到主機房并與容災機房一起雙活運行。整個搬遷過程按照不斷網,不停業(yè)務的高標準進行組織安排,工期安排在暑假進行。圖1所示為校園總體網絡拓撲結構。
網絡方面,自無線控制器,核心交換機、認證BRAS、防火墻,到邊界交換機均以IEEE802.3ad協(xié)議實現(xiàn)雙設備雙活配置連接,所需做的重點是梳理線路連接,確保分拆到兩座機房后立即正確接好心跳線,避免腦裂導致的網絡異常,之后逐條接好匯聚到核心的雙上行鏈路,確保雙上行鏈路在割接過程中至少有一條不斷開,用戶不會感知到網絡中斷。數(shù)據(jù)中心的計算資源方面,已有兩套刀片服務器,絕大多數(shù)關鍵應用和服務都創(chuàng)建在兩套刀片組成的一個虛擬化集群內,在兩個搬遷階段中分別將全部業(yè)務漂移到一組不搬的計算環(huán)境就能確保業(yè)務不斷條件下的搬遷實施。存儲方面,已在2014年末采購了雙活存儲網關,一直等待新機房完工,圖1所示的存儲拓撲為搬遷完后規(guī)劃的存儲拓撲。雙活存儲網關和一套新存儲在搬遷過程中部署在容災機房,先與舊機房存儲做好雙活同步,使新舊兩套存儲都具有完整的數(shù)據(jù),再將搬到容災機房的刀片服務器、新存儲、雙活存儲網關接通,使容災機房的服務器與存儲能全部接管全部業(yè)務,達到舊機房存儲停機條件,將舊機房存儲搬遷到新主機房,從而保障業(yè)務運行的同時也兼顧了存儲的搬遷工作。除此之外,還剩余一些非關鍵業(yè)務的服務器或交換機,則在需要搬遷時短暫停機。
根據(jù)上述搬遷思路規(guī)劃,不僅可以在實踐中檢驗雙活架構真正做到業(yè)務和網絡不中斷的效果,還有額外的優(yōu)勢在于:第一,所有的搬遷和割接工作都可安排在白天進行,實施人員可在頭腦清醒的狀態(tài)下投入工作,降低人為誤操作的機率;第二,由于是不間斷網絡和業(yè)務的搬遷,所以不存在搬遷的窗口時間,實施過程的時間壓力減小很多,尤其對于機器設備存在搬動后硬件故障的可能,更是無法掌握的時間因素;第三,割接過程萬一出現(xiàn)預料之外的差錯,用戶會在最短的時間反饋給實施人員,以便及時調整和解決,若在夜間進行搬遷和割接因無法得到用戶反饋,即使準備了相應的驗證條件,也可能獲得有偏差的結果,到白天又付出更多回退和中斷事件才能找到癥結。
搬遷的風險是客觀存在的,總體上也有三個方面。技術方面,雖然有高可用性技術作為支撐,但仍可能存在意料之外的問題,因此必須制定一些策略,將業(yè)務對技術所依賴的各個方面都考慮進來,在搬遷前進行驗證性測試和檢查,以縮短萬一出現(xiàn)的停機時間。硬件遷移方面,很多設備可能都會導致搬運過程中遭到損壞,策略之一是提前聯(lián)系好供貨商,在質保期內還可及時提供備件的更換,策略之二則是對該硬件承載的功能提前做出預判和備用,確保損壞真的發(fā)生時能減少損失。數(shù)據(jù)方面,不停機的搬遷在數(shù)據(jù)層面一直是活動的,提前的備份并不能持續(xù)跟蹤變化的數(shù)據(jù)存儲,但備份仍然是不可缺少的,我們可以采取業(yè)務系統(tǒng)只讀等措施來減少搬遷期間的數(shù)據(jù)變化,以兼顧網絡服務的持續(xù)使用和數(shù)據(jù)可恢復能力。