前言:想要寫出一篇引人入勝的文章?我們特意為您整理了企業(yè)數(shù)據(jù)中心業(yè)務保障體系建設實踐范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為適應市場需求,企業(yè)陸續(xù)開始數(shù)字化轉型,數(shù)據(jù)不只在生產(chǎn)控制和企業(yè)運營中發(fā)揮著重大作用,甚至作為業(yè)務的一部分向用戶開放,為企業(yè)創(chuàng)造價值。企業(yè)數(shù)據(jù)中心作為承載信息化系統(tǒng)的基礎,對確保業(yè)務連續(xù)性有著重要作用。該文以某集團公司的數(shù)據(jù)中心為例,在明確組織和指導方針的前提下,經(jīng)過分析、設計、實施、驗證[1]四個過程,在IT層面構建業(yè)務連續(xù)性保障體系,為企業(yè)信息化業(yè)務提供可靠的支撐。
關鍵詞:數(shù)據(jù)中心;業(yè)務連續(xù)性;應急預案;災備
隨著數(shù)字化技術的不斷推進,某集團公司高度重視信息化建設,在集團總部新建數(shù)據(jù)中心,將各分公司分散的信息化系統(tǒng)整合,統(tǒng)一管理維護。數(shù)據(jù)中心承載了企業(yè)ERP、OA、MES、網(wǎng)站、財務管理等各類應用系統(tǒng)業(yè)務,同時,企業(yè)正在研發(fā)智能平臺,準備對外提供信息化服務。隨著業(yè)務系統(tǒng)的增加,對數(shù)據(jù)中心的可靠性要求越來越高,如果發(fā)生中斷,將對企業(yè)的正常生產(chǎn)運營工作帶來重大損失。因此,企業(yè)決定在數(shù)據(jù)中心構建業(yè)務連續(xù)性保障體系,確保數(shù)據(jù)中心運行穩(wěn)定。業(yè)務連續(xù)性保障體系不只是簡單的備份和恢復操作,而是包括事前的風險評估、BCP(業(yè)務連續(xù)性計劃)制定和演練,儲備應急物資,事中的監(jiān)測和巡視,事發(fā)時的障礙處理,人員協(xié)調,匯報等制度流程,以及事后的總結改善等一系列內容。
1數(shù)據(jù)中心基本情況
該企業(yè)數(shù)據(jù)中心按照《數(shù)據(jù)中心設計規(guī)范》GB50174-2017的A級機房標準進行設計建造,配置了電源、服務器、存儲、通信設備、安全設備和環(huán)境監(jiān)控設備,符合等級保護2.0三級防護要求,租用運營商互聯(lián)網(wǎng)出口以及至各分公司的VPN專線??偛亢透鞣止緝炔客ㄟ^光纖組建局域網(wǎng)。計劃與運營商合作采用5G技術替代原先的光纖或無線WIFI組網(wǎng),實現(xiàn)智能工廠現(xiàn)場設備數(shù)據(jù)的鏈接。數(shù)據(jù)中心配套建有統(tǒng)一的監(jiān)控中心,有專門的運維團隊負責信息系統(tǒng)的維護工作并實行24小時監(jiān)控管理?!盀膫湎到y(tǒng)”計劃通過租用某公司云服務器業(yè)務實現(xiàn),只對關鍵系統(tǒng)通過云端進行熱備份,其余系統(tǒng)進行定期的數(shù)據(jù)備份,以降低“災備系統(tǒng)”建設成本。
2現(xiàn)狀分析
制定保障體系方案前,需要對現(xiàn)有業(yè)務的使用情況、業(yè)務可用性要求、網(wǎng)絡抗風險能力以及可能發(fā)生的風險進行了解和分析,確保應急處置方案能夠順利實施。同時,也能夠通過區(qū)分維護等級,按照不同的標準進行防護和處置,降低成本。
2.1業(yè)務和影響分析
首先對需要進行保障的內容進行分類,例如:“動環(huán)”監(jiān)控系統(tǒng)、互聯(lián)網(wǎng)業(yè)務、供配電系統(tǒng)、ERP等,便于后期保障方案的制定。通過調研,了解業(yè)務系統(tǒng)的現(xiàn)狀和影響。包括數(shù)據(jù)中心所承載的業(yè)務使用情況,業(yè)務占用的資源,業(yè)務涉及的部門或用戶,明確上級對業(yè)務重要性的定位,了解系統(tǒng)維護現(xiàn)狀。通過假設分析,列出業(yè)務中斷或異常時,在使用流程中各環(huán)節(jié)的影響情況,估算RTO和RPO,但也需要找出重要的時間段加急處理,以“動環(huán)”系統(tǒng)為例,具體內容如表1所示。
2.2威脅分析
分析該業(yè)務可能受到的威脅,以便針對威脅制定相應的風險應對方案。以“動環(huán)”監(jiān)控系統(tǒng)業(yè)務為例,如表2所示。2.3抗風險能力分析該部分需要了解以下三個方面的內容:一是管理層重視程度。該企業(yè)從高層就高度重視數(shù)據(jù)中心的業(yè)務連續(xù)性體系建設,要求各部門相關人員在方案制定和應急處置時積極配合各項工作。二是應急物資儲備情況。該企業(yè)信息化負責人要求按照配置管理的規(guī)定,對現(xiàn)有備件、材料、工具儀表等保障資源的種類、數(shù)量、放置位置等信息進行核查,定期檢查維護資料的可用性和準確性,確保能夠準確定位故障。三是技術防護能力。從系統(tǒng)設計時,就考慮到了冗余架構,通過雙鏈路、雙設備、雙板卡等方式進行保護。評估中心所承載的軟、硬件的備份能力,了解其恢復方法。對廠家的支持能力進行了評估,明確支持細則。
3保障方案設計
保障方案的設計是針對突發(fā)的系統(tǒng)安全事件提出的,需要從監(jiān)測開始,對業(yè)務的全過程進行管理,包括監(jiān)測、備份、應急預案等,應用技術與管理等手段,確保業(yè)務的持續(xù)性運行[2]。
3.1監(jiān)測與預警
監(jiān)測與預警作為確保業(yè)務連續(xù)性最常用的環(huán)節(jié)。雖然不能阻止障礙的發(fā)生,但可以通過及時發(fā)現(xiàn)以降低突發(fā)事件造成的影響。監(jiān)控方案需要明確監(jiān)控人員的職責、監(jiān)控內容、記錄規(guī)則、告警閾值,以及通知流程等事項[3],使其作為安全防護的第一道防線?,F(xiàn)場的設備巡檢也同樣重要,需要明確維護人員巡檢的周期、巡檢內容,以及對應指標等。同樣,對巡檢中發(fā)現(xiàn)的問題,也需要有明確的報告機制、指定人員和權限。
3.2備份方案
數(shù)據(jù)中心中的各類設備可進行整機備份、板卡備份、鏈路備份、軟件備份等,根據(jù)保障級別的不同,也可以分為熱備份,冷備份和溫備份[4]。熱備份方案用于對連續(xù)性要求高的業(yè)務,不允許業(yè)務中斷。備份系統(tǒng)也處于工作狀態(tài),通過同步、鏡像等方式保持與在用系統(tǒng)的同步性。冷備份方案用于一般業(yè)務,中斷后,根據(jù)RTO/RPO的要求,制定備份計劃,對于硬件或軟件安裝包,可放置于備件庫內保管,對于數(shù)據(jù),可做好離線備份計劃,確定周期,并做好版本登記。溫備份比較折中,備份系統(tǒng)處于帶電運行狀態(tài),但不參與系統(tǒng)運行,需要定期同步數(shù)據(jù)。溫備份系統(tǒng)中可根據(jù)實際安裝多個業(yè)務系統(tǒng),作為應急使用。對于系統(tǒng)的重大變更操作,無論選擇哪種備份方案,都需提前將數(shù)據(jù)進行備份,并做好版本登記。
3.3應急預案
應急預案是業(yè)務連續(xù)性保障的關鍵環(huán)節(jié),幾乎涵蓋確保業(yè)務連續(xù)性管理所需的全部工作內容,為應急響應工作提供重要的指導[2]。對于應急預案的內容,國家有相應的標準[5]提供參考。詳細的內容以及業(yè)務影響分析結果、威脅分析和應急資源情況和應急演練方案模板等內容,均可作為應急預案的附件,以便更好地指導實際工作。應急預案大致包括以下幾個部分:(1)角色及職責該部分明確應急事件在企業(yè)內部和外協(xié)組織中,明確管理、實施及運維的組織設置和職責分工,可通過建立呼叫樹的方式使人員和職責更加清晰地展現(xiàn)。(2)預防和預警機制明確應急事情發(fā)生前的各項預防工作,詳細見3.2和3.1章節(jié)。(3)應急響應流程一是事件通報機制,明確事件發(fā)生時的通知規(guī)則。二是事件分類和定級機制,將系統(tǒng)各類安全事件明確類別和優(yōu)先級,對應不同的保護模式。三是現(xiàn)場處置內容。發(fā)生應急事件后,進行何種操作等。四是恢復流程。需將為搶通業(yè)務而做的應急操作,及時恢復正常,使系統(tǒng)具備持續(xù)保障的能力。(4)應急響應保障措施需要高層明確的支持內容,包括制度、人員、獎懲、物資、電力保障、輔助軟件、甚至移動應急保障系統(tǒng)的建設等,使應急預案能夠順利實施。
4保障方案的實施
4.1培訓
該企業(yè)面向IT運維人員,組織了兩種類型的培訓。一是安全教育。通過案例,講解安全的重要性,提高企業(yè)IT“運維”人員的憂患意識和危機意識,并在安全教育,介紹企業(yè)的業(yè)務連續(xù)性保障制度。二是技術培訓。有針對性地提高維護人員的業(yè)務水平,使其在應急處置時,能夠準確判斷障礙并及時恢復業(yè)務。
4.2應急物資儲備
企業(yè)對應急物資的購置較為及時,每年有針對應急物資的采購預算。企業(yè)應急物資種類涉及設備、輔材、軟件、工具儀表等,規(guī)格和數(shù)量龐大,且定期更新,為降低障礙處理歷時,常用物資甚至放置在了現(xiàn)場,使物資較為分散。因此,企業(yè)對應急物資儲備庫,實行了電子化管理,詳細記錄了物資的情況,并做好出入庫的登記,便于緊急情況時快速定位資源。對應急物資,還需要定期進行功能測試,確保其可用性。
4.3按照方案實施
按照業(yè)務連續(xù)性保障體系中的各方案要求,做好事前,事中,事發(fā),以及事后的各項工作,并在實踐中隨時發(fā)現(xiàn)問題,及時提出整改意見。
5保障能力驗證
5.1應急演練
應急演練是驗證業(yè)務連續(xù)性保障能力的有效途徑,沒有演練過的應急預案,因無法驗證其有效性,甚至不能作為正式版本的預案推行。該企業(yè)要求公司全部人員每年均參與應急演練。涉及指揮能力、技術能力及業(yè)務方面的應急水平。每次演練反復論證演練方案,確保演練有效,但風險最小。應急演練方案一般包括目的和預期、范圍、人員和職責、時間地點、詳細步驟和方法,演習前的準備工作,演練異常的處理措施,注意事項等內容。演練的模式分為了虛擬型、突襲型、計劃型三類。虛擬型為邀請專家和相關人員對方案進行論證。突襲型為控制演練方案的知曉范圍,驗證企業(yè)的真實應急處理能力。計劃型為傳統(tǒng)的演練,涉及范圍廣,人員多,頻率高,目的是真正出現(xiàn)障礙時,能夠有序開展處置工作。演練后,該企業(yè)會進行復盤,及時總結并處理演練中發(fā)現(xiàn)的問題。
5.2方案審查
對各項業(yè)務連續(xù)性保障方案,需要定期進行符合性檢查,驗證方案涉及面是否完整,是否在公司有效推行。也要進行實質性檢查,測試相關因素是否正常,確保方案的可行性。
6結語
企業(yè)數(shù)據(jù)中心業(yè)務連續(xù)性保障體系的建設,為IT“運維”人員提供了完備的應急響應措施,減輕各類突發(fā)事件對業(yè)務的影響。體系的建立是個復雜的過程,需要循序漸進的推進,甚至在信息系統(tǒng)整體架構設計時,就開始規(guī)劃,給“災備”部分預留資源。后期可由IT系統(tǒng)擴展為構建業(yè)務連續(xù)性體系,涉及公司生產(chǎn)運營各個領域,有效提升企業(yè)的管理水平。
參考文獻:
[1]國際業(yè)務持續(xù)協(xié)會,余紹強譯.良好實踐指南[M].第一版,北京:中國標準出版社,2014.
[2]姜琪,李亞龍,張潔,馬犇.基于業(yè)務連續(xù)性管理的應急管理體系建設研究[J].電腦知識與技術(學術版),2019(8Z):42-45.
[3]信息技術安全技術信息安全管理體系要求GBT22080-2016[S].
[4]柳鵬,何瀟銳.備份技術研究[J].中國科技信息,2011(8):124-125.
[5]信息安全應急響應計劃規(guī)范.GB/T24363-2009[S].
作者:黃碩 單位:山東省專用通信局