數字孿生黃河算力建設實踐與思考
Practice and reflections on the construction of computing power for the digital twin Yellow River
李自尊,王益民,楚楠
(黃河水利委員會信息中心,450004,鄭州)
摘要:合理規劃水利部黃河水利委員會算力資源布局,優化算力資源設計,可為數字孿生黃河建設提供綠色、高效、安全、彈性的算力支撐。回顧了黃河水利委員會算力資源建設歷程,分析了算力資源、保障設施建設現狀,指出算力資源建設在多算力融合、算力資源服務能力、保障體系等方面存在的問題。基于數字孿生黃河建設對算力資源的需求,提出“整合已建、統籌在建、規范新建”的建設思路,整體設計采用中心算力“超集中”,邊緣算力“超分布”,算力內核“多樣化”,多元算力、算力多主體融合供給的“兩超一多兩融合”的“云邊協同”布局思路,提出從基礎計算、高性能計算、人工智能計算等方面提升算力,基于算力資源管理平臺實現異構資源統一納管、精細化權限管理等,從綠色機房環境、容災備份、分區分域算力資源建設等方面加強保障體系建設,以期為黃河及其他流域后續算力資源規劃建設提供參考。
關鍵詞:數字孿生黃河;算力;算力布局;多算力融合;保障體系
作者簡介:李自尊,高級工程師,主要研究方向為水利信息化、數據匯聚治理及云數據中心建設。
DOI:10.3969/j.issn.1000-1123.2025.03.003
隨著技術推陳出新及運營模式發展變革,算力資源服務云化、配置標準化、管理自動化已成為新一代算力中心的顯著特點。水利部黃河水利委員會(以下簡稱黃委)算力基礎設施建設起步較早,2004年成立了全國水利系統的首家數據中心,并形成了以黃河數據中心為主,委屬單位山東黃河河務局、河南黃河河務局、黃河上中游管理局、水文局、黃河水利科學研究院等分散建設的算力基礎設施布局。近年,通過實施水利財務管理信息系統、黃委綜合管理信息資源整合與共享等重點項目,黃河數據中心引入云計算、虛擬化等先進技術理念,以構建面向服務的云服務中心體系為目標,初步實現了物理資源的整合共享、靈活管理,提升了應用系統的部署效率,一定程度提高了計算資源的復用率。隨著數字孿生黃河建設的深入,數據類型更加復雜多樣,數據來源更加豐富,計算模型更加復雜融合,計算方式更加多元,對算力資源的需求也更加復雜、多元、融合。當前,委屬各單位算力資源分散部署,整體算力指標強但資源服務能力弱,且傳統算力資源無法滿足人工智能、高性能計算等新技術應用需求。
2020年國家發展改革委、中央網信辦、工業和信息化部、國家能源局聯合印發《關于加快構建全國一體化大數據中心協同創新體系的指導意見》,明確指出“優化數據中心基礎設施建設布局,加快實現數據中心集約化、規模化、綠色化發展”;2021年工業和信息化部出臺《新型數據中心發展三年行動計劃(2021—2023年)》,引導傳統數據中心向具有高技術、高算力、高能效、高安全特征的新型數據中心演進,推動CPU、GPU等異構算力提升,支撐各類智能應用;2022年水利部印發《數字孿生流域建設技術大綱(試行)》,提出建成省級及以上水行政主管部門水利云,實現計算存儲資源按需分配、彈性伸縮,為數字孿生流域提供安全可靠“算力”保障。
為適應智慧水利建設要求和黃河流域高質量發展客觀需要,亟待推進黃委算力布局統籌共享,優化資源配置,提升資源服務能力,支撐新時期數字孿生黃河建設。
黃委算力資源建設歷程
黃委算力資源建設主要經歷“數字黃河”“數字孿生黃河”兩個階段。2001年7月25日,黃委黨組正式提出建設“數字黃河”工程。2003年“數字黃河”工程規劃正式發布,明確要求建設黃河數據中心,黃委算力資源采取“1+7”建設模式,即1個數據中心,委屬單位水文局、山東黃河河務局、河南黃河河務局、黃河流域水資源保護局、黃河勘測規劃設計研究院有限公司、黃河水利科學研究院、黃河上中游管理局7個分中心,并將分中心數據在中心備份。2004年,黃河數據中心一期工程建設完成,成為全國水利系統首家投入應用的數據中心,并在后續建設中逐步形成了“黃河數據中心+數據分中心”的運行模式。然而,隨著設備老化、技術迭代和管理模式變化,中心與分中心之間的數據交換已經停止,分中心的數據也不再向數據中心備份。
“數字黃河”階段數據存儲能力達到了10TB級規模,重點存放基礎數據和監測站點采集的結構化數據,采用FC-SAN存儲技術滿足數據高速IOPS訪問需求。基礎計算以物理機部署模式為主,并逐步開始向虛擬化方式部署轉變;高性能計算平臺浮點運算速度為每秒3840億次,主要為黃委氣象水文預報、下游水沙過程演進模擬運算提供計算支撐;基于機器學習、自然語言處理等技術的人工智能計算尚未得到應用。
按照水利部統一部署,黃委2022年開展數字孿生先行先試,國產化算力進一步提升。衛星、無人機、視頻、無人船、工情險情監測感知設備等新型監測感知技術的普遍應用,使覆蓋水利對象全要素和水利治理管理全過程的數據類型日益繁雜,數據量遠超PB級,以云計算方式部署的基礎計算已成為主流,高性能并行計算集群及人工智能計算作為通用計算的補充,應用需求旺盛。
數字孿生黃河算力建設實踐
1.算力資源建設
在國家新型基礎設施建設、信創要求及水利部數字孿生流域建設相關政策文件的指導下,按照“集約高效、共享開放、安全可靠、按需服務”的原則,在黃河云平臺基礎上,對云資源進行補充、提升和完善,形成融合了X86、ARM等不同架構類型,涵蓋CPU、GPU等不同芯片的多元異構黃河云,有效支撐了智能遙感解譯、無人機智能識別等智能并行運算,以及黃河水旱災害防御、水資源管理與調配等“2+N”智能應用系統的高效穩定運行,滿足了業務多樣化的計算需求。計算資源分為基礎計算、高性能計算和人工智能計算三類,包括國產化和非國產化兩套體系。
基礎計算通常指日常業務處理和信息服務計算,包括數據中心的服務器、存儲和網絡設備等基礎設施,主要用于業務邏輯流程處理。黃委基礎計算資源主要集中部署在黃河數據中心,并分布在山東黃河河務局、河南黃河河務局、水文局、黃河上中游管理局等委屬單位。黃河數據中心于2015年開始引入云計算技術,開展了X86云平臺建設,共有88個物理CPU,13TB內存,投入生產運行300余臺虛擬機。目前X86云平臺內存使用率超70%,云計算平臺承載能力已經超過理論建議閾值,不再計劃擴充。隨著國產化的推進,2020年開始搭建國產云平臺,選用ARM架構國產芯片搭建了計算資源池及存儲資源池,操作系統選用銀河麒麟V10,主要用于承載公文流轉、移動辦公等國產化改造后的電子政務系統。數據庫為集中方式部署,組建了2節點Oracle RAC集群,目前承載了幾十個業務系統,已經高負荷運轉。考慮到系統性能,近兩年購置的國產數據庫,均為每套部署一個或幾個業務應用。
高性能計算是能夠對大量任務進行高效快速運算的技術,為科學研究提供大規模高性能科學計算和仿真計算服務。2006年,黃河水利科學研究院建成了流域機構第一家高性能計算平臺——黃河超級計算中心。隨著數字孿生黃河對“四預”(預報、預警、預演、預案)精度和時效性要求不斷提高,黃委高性能計算集群能力近年得到一定提升,主要集中部署在委屬單位黃河水利科學研究院和水文局,用于二三維水動力學模型、黃河流域堤壩潰決及洪水演進模型、黃河主要來水區間中長期徑流預報模型等專業模型的高效計算。
人工智能計算是指用于執行人工智能算法和模型的計算過程,包括機器學習、自然語言處理、深度學習和計算機視覺等領域的計算。基于人工智能算法的遙感智能提取與分析、視頻智能識別等技術在黃委河湖庫“清四亂”(清理亂占、亂采、亂堆、亂建)、冰川融雪徑流中長期預報等領域逐步開展應用,主要采用以英偉達GPU為主的人工智能計算芯片。
2.保障設施建設
黃河數據中心機房樓為單獨樓體,為水旱災害防御、水資源管理與調配、“黃河一張圖”等幾十個治黃業務系統的生產運行提供支撐。同時根據黃委算力資源分布,委屬單位分散建設機房環境。由于建設年代較早,黃河數據中心機房基于傳統機房模式建設,制冷效率低、機房能耗大,且涉及裝修、制冷、供配電、消防等多專業分散集成,運維管理要求高。
為應對黃河云運行中資源監控分散、缺乏業務視角全局監控、輔助決策能力不足以及國產化資源監控手段缺失等問題,構建了基于國產化技術的黃委信息系統智能運維監控平臺。該平臺整合了信息系統資源,實現了資源監控、運維流程、資產管理和綜合展示分析等功能的閉環管理,精細化云資源管理,一定程度提高了故障響應效率和云資源服務質量,確保了上層業務系統的穩定運行。
容災備份方面黃河數據中心基于備份一體機及虛擬化平臺自帶的備份功能,實現核心數據及重要業務系統的本地備份。部分委屬單位建有本地備份系統。
3.差距與問題
①多算力融合實踐成果不佳。一是委屬各單位算力底層架構采用的技術路線、芯片型號各異,未進行有效整合,算力資源無法有效兼容和調度,影響了整體效益的發揮;二是委屬各單位應用系統分散建設,數據格式、編譯環境、接口標準等不一致,導致系統間融合使用困難,可操作性差,影響系統整體效能;三是國產化算力占比不高,部分重要業務系統需要進一步開展國產化適配;四是算力基礎制度體系不健全,算力整合共享管理等制度辦法落實缺乏強有力的抓手。
②算力資源服務能力有待提升一是算力資源總量不足,現有算力資源多隨系統或特定項目建設,沒有過多冗余資源,存儲資源總量已使用近80%,計算資源已近超分1:2閾值;二是尚未建立大規模面向業務生產運行的高性能計算和人工智能計算平臺。
③保障體系存在薄弱環節。一是機房整體能耗高,目前黃河數據中心采用傳統機房模式,非IT設備用電量占數據中心總能耗60%~70%,PUE(Power Usage Effectiveness,電源使用效率)值約為3.7,能耗大,運行成本高,不符合國家機房能效標準;二是根據《信息安全技術 網絡安全等級保護基本要求》(GB/T 22239—2019),第三級安全要求“應提供異地實時備份功能,利用通信網絡將重要數據實時備份至備份場地”,黃河數據中心需要建立數據異地災備系統;三是政務外網區和互聯網區未嚴格按照網絡分區分域管理,存在混淆使用算力資源情況,具有較大網絡安全風險。
數字孿生黃河算力建設思考
1.建設思路
按照“整合已建、統籌在建、規范新建”的建設思路,遵循國家、水利部關于算力資源集約化、規模化、綠色化部署要求及國產化戰略要求,進一步挖掘算力資源潛能,統籌國產算力布局,擴充算力資源,構建數字孿生多元算力融合的黃河云。通過黃河云以虛擬數據中心(VDC)或多租戶的方式共享算力,支撐流域“2+N”應用,建成數字孿生水利的黃河流域節點和數據災備中心。
數字孿生黃河算力布局統籌共享總體思路
①整合已建委屬各單位現有算力資源物理位置保持不變,采用虛擬化或云化技術的國產化算力資源邏輯納入多元算力融合黃河云,不具備或無法整合的算力資源維持現狀使用,并逐步過渡到統一管理、按需共享。
②統籌在建。在建算力資源按照統一的技術標準納入黃河云統一算力資源管理體系,形成算力合力。
③規范新建。服務于委級業務的應用,采用國產化技術統一部署在黃河數據中心,通過集約建設、集中部署、統籌管理,將有限資源優先滿足數字孿生關鍵領域、核心業務的發展需要,既合理利用資源,又減少機房環境、網絡安全等重復建設導致的資源浪費、安全風險點增加等不合理現象。其他應用原則上采用國產化技術云化部署,將新增算力資源與黃河云算力資源管理平臺對接,實時歸集云資源使用數據、云平臺運行數據等,實現全委算力資源的統一管理及調度。
2.算力布局
黃河全長5464km,流域面積79.5萬km2,范圍大,距離長,環境復雜,全流域數據獲取困難。考慮到系統響應時效及通信帶寬等因素,根據數字孿生黃河建設數據采集、處理、分析需求,設計整體采用“兩超一多兩融合”的“云邊協同”布局思路,即中心算力“超集中”,邊緣算力“超分布”,算力內核“多樣化”,多元算力、算力多主體融合供給。
(1)中心算力“超集中”
①集約化建設。將分散的算力資源整合至黃河數據中心,形成規模化、集約化的算力中心,降低建設成本,減少安全風險點,提高運維效率,更好地滿足數字孿生黃河對大規模計算資源的需求。集中建設和分散建設兩種模式對比見下表。
集中建設和分散建設模式對比
②綠色節能。集約化建設可減少單體小規模機房數量,采用模塊化機房技術,對現有機房進行節能改造,降低能耗,響應國家綠色發展戰略。
(2)邊緣算力“超分布”
①邊緣節點建設。在黃河流域的關鍵區域部署邊緣云計算節點,靠近數據源進行數據采集、處理和分析,降低延遲,提高響應速度,減輕中心算力的負擔。
②云邊協同。通過云邊協同技術,實現中心算力與邊緣算力的協同工作,合理分配計算任務,優化資源利用,提升系統整體性能和可靠性。相比傳統的云端數據處理,云邊協同模式下,云端計算集群、邊緣網絡節點、物聯網智能終端都可參與到感知、學習和決策的過程中。例如,在智能視頻監控系統中,端設備(如智能攝像頭)實時檢測和識別水位線變化、非法捕撈行為等,邊緣設備進行圖像增強、目標跟蹤、預警處置;而云計算中心則用于更復雜的數據分析和長期決策支持,如預測水位變化趨勢,接收邊緣設備上傳的預警信息,進一步支持決策和資源調度。
“云邊協同”模式
(3)算力內核“多樣化”
①異構融合。采用多種芯片架構(如CPU、GPU、TPU等)和計算平臺架構(如虛擬化、高性能計算、人工智能計算等),構建多元異構融合的算力資源池,滿足不同業務場景下的多樣化計算需求。
②彈性擴展。基于云計算技術,實現算力資源的彈性擴展,根據業務需求動態調整資源分配,提高資源利用率。
(4)多元算力、算力多主體融合供給
①資源共享。建立黃河數據中心與邊緣節點的統一管理機制,通過資源虛擬化、異構計算框架構建、智能資源調度、負載均衡、存儲分層、網絡通信優化等技術有效整合與協同多元異構算力資源,實現算力資源的共享和調度,避免資源閑置和浪費。
②多方協同。積極探索與國家超級計算中心、省級數據中心等算力資源合作,實現多方協同供給,滿足黃委對算力的多樣化需求。
3.技術架構
數字孿生黃河算力總體框架設計包括物理資源層、云資源層、資源服務及管理層、資源使用層、資源應用層。
數字孿生黃河算力總體框架
物理資源層包含機房環境,CPU、GPU等異構計算資源,以及塊、對象、文件等多種類型的存儲資源,通過網絡互聯設備及必要的安全設備,將黃河數據中心、邊緣云計算節點、災備中心互聯互通,從而形成統一算力基礎設施。
云資源層通過虛擬化、多云管理、高性能計算集群管理等多種技術手段,將物理資源整合為計算存儲等資源池,對上提供統一資源服務,主要包括虛擬化資源池、數據庫資源池、人工智能計算資源池、大數據資源池、容器資源池、高性能計算資源池。
資源服務及管理層包括自助服務門戶及統一管理門戶,將底層算力資源統一以資源服務目錄形式提供給上層應用,并實現對資源的統一監控、統一管理、統一調度。
資源使用層用戶通過虛擬數據中心或租戶形式以虛擬機、容器等多種方式使用算力資源,部署生產業務應用、模型計算或開發測試。
4.算力設計
(1)算力能力提升
以云計算、高性能計算、人工智能等新技術為基礎,構建數字孿生黃河算力中心節點,為數字孿生黃河建設水利專業模型、智能模型、可視化模型等算法的并行計算、分布計算、模擬仿真需求及“2+N”智能業務運行提供高性能、高可靠、高安全的算力支撐,實現建設集約化、資源共享化、服務標準化、效益最大化。
按照功能分區,將算力資源整體分為基礎計算資源區、人工智能區、高性能計算區及存儲備份資源區。整體平臺架構邏輯如下圖所示。
數字孿生黃河算力部署架構
①基礎計算業務區。基礎計算業務區采用云計算平臺架構建設,由基礎計算服務器、數據庫服務器、存儲設備、云平臺管理軟件、數據庫管理軟件等組成,其中基礎計算服務器基于虛擬化與容器等技術提供云化計算、存儲資源,數據庫服務器采用裸金屬部署方式。基礎計算業務區分為計算、管理和存儲組網,其中存儲在數據中心內部單獨組網,計算和管理分別組網再匯聚上聯。
②高性能計算區。高性能計算為并行計算架構,采用獨立的并行計算框架底層架構邏輯,通過并行環境與并行調度軟件搭建一套為科學計算、模型運算提供應用服務的高性能平臺。前端業務設計采用10GE網絡互聯,后端存儲及計算節點互聯設計采用100GE網絡互聯組網,提供高速穩定的網絡環境,保障高性能計算服務器之間的無縫協同工作,確保計算節點之間的通信暢通。
③人工智能區。人工智能計算與基礎計算平臺或高性能計算納入統一管理,通過GPU直通、容器等方式為上層業務提供AI計算能力。前端業務設計采用10GE網絡互聯,后端存儲互聯與基礎計算業務區或高性能計算區共用存儲網絡。
④存儲備份資源。主要包括塊存儲、文件存儲、對象存儲及備份存儲資源。塊存儲與上層計算資源采用FC-SAN組網,由光纖交換機連接計算及存儲資源;文件存儲及對象存儲采用分布式存儲架構,存儲系統內部互聯、存儲節點與計算節點互聯均采用25GE以上網絡。
(2)算力資源管理平臺建設
按照集約共享的方式,集約化建設算力資源,通過采取異構資源統一納管、多級組織及精細化權限管理、自助化統一服務門戶、算力資源運營閉環管理、云服務質量監管等多種技術手段,按需為上層應用提供高效彈性的算力資源服務。
①異構資源統一納管。基于統一技術標準,將不同類型(如CPU、GPU)及不同芯片架構(如ARM架構、X86架構)的計算資源納入統一資源管理體系,優化資源分配及調度,實現對各種資源的最大化利用及高效管理,為上層應用提供靈活的計算能力,提升算力整體運行效率及服務質量。
②多級組織與精細化權限管理。面向機關部門、委屬單位設置算力資源多級組織管理,對于山東黃河河務局、河南黃河河務局、水文局、黃河水利科學研究院等算力資源需求較旺盛且具有一定技術管理能力的委屬單位,通過云計算技術建立虛擬數據中心,劃分一定算力資源由上述單位進行日常管理及自主分配,黃河數據中心對分配資源進行統一監控及運維分析;對于機關部門,以及陜西黃河河務局、山西黃河河務局、機關服務局等委屬單位,直接申請使用算力資源,黃河數據中心按照租戶模式為其劃分計算存儲資源并統一運行維護。
③自助化統一服務門戶。基于統一的服務門戶發布算力資源服務目錄,用戶可以快速通過服務目錄選擇計算、存儲資源,提升算力自服務能力。
④算力資源運營閉環管理。提供算力資源治理、計量計費、服務運營等自動化支撐工具,融合資源編排、資產配置可視化等多種技術手段,靈活組合各類算力資源,降低分散算力資源的運維成本,提供可持續的算力服務。
⑤云服務質量監管。基于統一資源監控,在性能、可靠性、資源使用率、運行成本等多個方面出具專業的系統評估報告及資源升配、降配、閑置停用等優化建議,提升云服務質量,合力分配算力資源。
(3)保障體系建設
①基礎環境。貫徹新發展理念,助力實現碳達峰、碳中和,進一步契合云計算、虛擬化、集中化、高密化等服務器發展趨勢,在黃河數據中心統一機房建設基礎環境。采用模塊化機房技術,實現對黃河數據中心機房的模塊化節能改造,擴展機房可用空間,力爭達到國家A級機房標準,最大程度降低數據中心整體能耗,節約電能消耗40%以上,PUE值達到1.3~1.5。
②災備體系。以黃河數據中心為主體,采用“兩地三中心”技術架構建立流域容災備份體系。同城災備中心實現重要業務數據容災及核心業務應用容災,在保障核心業務連續性的同時,為智能算法、數字孿生、科學研究、系統研發等提供場景支撐和開發平臺,避免災備中心日常資源閑置;建設委級數據災備系統,實現委屬單位重要業務數據在黃河數據中心的集中統一災備,并將黃河數據中心本地重要數據異地災備至異地災備中心,實現核心業務數據容災和關鍵業務應用容災。
③算力資源分區分域建設。按照網絡安全要求規范分區建設,滿足互聯網業務應用及數據采集需求,采用超融合技術,在互聯網隔離區(DMZ區)建設虛擬化平臺,為上層業務提供統一的計算存儲服務,實現政務外網區和互聯網區的邏輯隔離,通過網絡安全設備實現二者的數據交換。
結語
在國家新型數據中心建設和數字孿生黃河建設整體框架體系下,通過合理規劃、建設、管理黃委算力提升資源服務能力,是本研究的出發點。回顧了黃委算力資源發展歷程,分析了黃委算力資源建設的現狀及問題,提出了“整合已建、統籌在建、規范新建”的建設思路,以及“兩超一多兩融合”的“云邊協同”算力布局方案。通過構建多元異構融合的黃河云,加強算力資源平臺及保障體系建設,將有效提升黃委算力資源服務能力,為數字孿生黃河建設提供有力支撐。未來,超集中的中心算力、超分布的邊緣算力、云邊算力間的協同保障體系的建設和落地執行,有待進一步深入研究。
Abstract: Rational planning of the Yellow River Conservancy Commission’s computing power resource layout and optimization of computing power resource design can provide green, efficient, secure, and flexible computing support for the construction of the digital twin Yellow River. This paper reviews the construction history of the Commission’s computing power resources, analyzes the current status of computing resources and supporting facilities, and identifies issues in areas such as multi-computing power integration, service capabilities of computing resources, and support systems. Based on the computing power requirements for the digital twin Yellow River, the paper proposes a construction approach of “integrating existing resources, coordinating ongoing projects, and standardizing new constructions”. The overall design adopts a “cloud-edge collaboration” layout strategy characterized by “super-centralized central computing power, super-distributed edge computing power, diversified computing cores, and integrated multi-source and multi-entity computing power supply”. It suggests enhancing computing capabilities in basic computing, high-performance computing, and artificial intelligence computing. The paper also recommends achieving unified management of heterogeneous resources and refined permission management through a computing power resource management platform, and strengthening the support system in areas such as green data center environments, disaster recovery backups, and regional computing resource construction. These insights aim to provide a reference for the planning and construction of computing power resources for the Yellow River and other river basins.
Keywords: digital twin Yellow River; computing power; computing power layout; multi-computing power integration; support system
本文引用格式:
李自尊,王益民,楚楠.數字孿生黃河算力建設實踐與思考[J].中國水利,2025(3):22-30
封面供圖水利部黃河水利委員會
責編王慧
校對董林玥
審核軒瑋
監制趙洪濤
聲明:本文系轉載自互聯網,請讀者僅作參考,并自行核實相關內容。若對該稿件內容有任何疑問或質疑,請立即與鐵甲網聯系,本網將迅速給您回應并做處理,再次感謝您的閱讀與關注。
不想錯過新鮮資訊?
微信"掃一掃"