引調水工程安全智慧監管多模態大模型構建技術研究
Multimodal large model construction technology for intelligent safety supervision of water diversion projects
王立虎,劉雪梅,李海瑞,陳曉楠
.華北水利水電大學管理與經濟學院,450046,鄭州;.華北水利水電大學數字孿生水利高等研究院,450046,鄭州;3.中國南水北調集團中線有限公司,100038,北京)
摘要:隨著“天空地水工”一體化感知體系全面建設,引調水工程安全感知數據呈現出多源異構、規模龐大、動態變化等復雜特征,傳統的基于單模態數據分析、挖掘方法在工程安全智慧監管場景下面臨明顯的局限性。融合多模態大模型與知識圖譜技術,提出一種“感知—認知—決策”的智慧監管模式。基于標準規范、風險應急管理資料、巡檢文本及圖像、多光譜遙感影像,微調多模態大模型并結合動態提示策略,構建面向工程安全的多模態知識圖譜;利用檢索增強生成技術及知識圖譜的結構化知識,提升大模型在專業領域的可靠性及推理能力;提出多智能體協同的決策鏈構建方法,通過動態任務編排實現模型能力耦合,賦能工程安全管理中的風險識別、評估及預案生成業務。實驗結果表明,本研究方法的多模態知識提取準確性高,可支撐引調水工程安全智慧監管。
關鍵詞:多模態大模型;多模態知識圖譜;安全智慧監管;引調水工程
作者簡介王立虎,博士研究生,主要從事水利大模型研究。
通信作者:劉雪梅,教授,主要從事數字孿生水利研究。E-mail:liuxuemei@ncwu.edu.cn
基金項目:國家重點研發計劃(2024YFC3210802);國家自然科學基金項目(72271091);2022年度水利部重大科技項目(SKS-2022029);河南省科學院科技開放合作項目(220901008);河南省高等教育重點研發項目(24A520021)。
DOI:10.3969/j.issn.1000-1123.2025.11.002
研究背景
引調水工程是國家水網的重要通道,是保障國家水安全的重要基礎設施。隨著“天空地水工”一體化感知體系建設全面推進,引調水工程安全感知數據呈現出多源異構、規模龐大、動態變化等復雜特征。傳統的基于單模態數據分析、挖掘技術無法有效整合“天空地水工”多源異構數據的互補優勢,難以滿足工程安全智慧監管需求。以大模型為代表的新一代人工智能技術是發展水利新質生產力、推進水利業務智能化的突破口和落腳點。2025年全國水利工作會議強調實施“人工智能+水利”行動,構建水利大模型建設應用框架,加強與“2+N”業務應用體系深度集成。
DeepSeek、GPT、GLM等通用大模型具有突出的泛化性、知識涌現性,已成為學術界、產業界關注熱點。水利部信息中心組織研發的“上善”水利大模型具備“擅學習、能交互、會計算、可展現”特點;中國長江三峽集團有限公司研發的“大禹”大模型,實現了水電領域專業知識的復雜查詢、精準響應,并應用于生產運行、運維檢修、項目管理及安全規程等方面;浪潮智慧科技有限公司發布的浪潮安瀾大模型,通過整合水利行業相關法律法規、政策文件、灌區地理數據等,構建了都江堰灌區水利綜合知識庫,憑借DeepSeek實現了灌區知識智能檢索與多輪問答;長江設計集團有限公司聯合華中科技大學發布的“千手”大模型,實現了水庫、大壩監測數據的高效處理與智能預警。
目前,大模型支撐引調水工程安全相關業務主要存在以下瓶頸:①引調水工程安全運行數據涉及圖像、文本等多種類型,現有大模型尚未具備充分整合多模態數據互補優勢的能力;②大模型存在幻覺、黑箱及推理能力弱等問題,導致其在實際工程應用中存在局限性;③引調水工程風險場景復雜,大模型在面對復雜風險場景時的決策能力有限。
本研究融合多模態大模型與知識圖譜技術,提出一種“感知—認知—決策”的智慧監管模式,主要目標如下。
①基于標準規范、風險應急管理資料,巡檢文本及圖像、多光譜遙感影像,微調多模態大模型,并結合動態提示策略,構建面向工程安全的多模態知識圖譜。
②利用檢索增強生成技術(Retrieval Augmented Generation,RAG)及知識圖譜的高質量結構化知識,提升大模型在專業領域的可靠性及推理能力。
③提出多智能體協同的決策鏈構建方法,通過動態任務編排實現模型能力的耦合,以及工程安全管理中的風險識別、評估和預案生成業務。
工程安全多模態大模型構建
基于標準規范、風險應急管理資料、巡檢文本及圖像、多光譜遙感影像等數據,構建引調水工程安全領域的多模態大模型,支撐工程安全風險的識別、評估、預案生成任務。引調水工程安全智慧監管多模態大模型技術架構主要包括多模態數據、多模態大模型平臺、業務應用三部分。
引調水工程安全智慧監管多模態大模型技術架構
1.多模態數據
(1)多模態數據收集
多模態數據包括標準規范、風險應急管理資料、巡檢文本及圖像、多光譜遙感影像等。
標準規范數據涵蓋水利工程安全相關的國家和行業標準規范,例如《水利部關于開展水利安全風險分級管控的指導意見》《水利水電工程(調水工程)運行危險源辨識與風險評價導則(試行)》等。
風險應急管理資料包括風險防控手冊、專項應急預案等,詳細描述工程安全管理中的風險類型及相應的應急處置措施。
巡檢文本及圖像來源于每日工程巡檢記錄、風險巡檢周報,數據模態涉及圖像和文本兩種,記錄工程安全管理過程中的各類風險。
多光譜遙感影像的時間尺度為5天,數據包含13個波段(如藍光波段B1、綠光波段B2等),覆蓋從可見光到近紅外的頻譜范圍。基于不同波段的計算,可獲取建筑物沉降、位移等風險信息,并結合經緯度及遙感測量時間,精準定位風險發生的地點和時間。
(2)多模態數據預處理
多模態數據預處理旨在為工程安全智慧監管任務提供統一、規范的輸入數據。由于不同模態數據的采集方式、數據結構、時間尺度和語義粒度存在差異,對不同模態數據采取不同的數據預處理策略。對于多光譜遙感影像,首先利用插值法進行影像數據重采樣,然后通過線性變換對影像數據進行波段合成,最后進行影像數據的裁剪和地物標注;對于風險應急管理資料、標準規范及風險巡檢文本,預處理過程包括分詞、去噪、編碼轉換等;對于風險巡檢圖像,預處理過程包括圖像增強、尺寸調整、空間轉換操作等。此外,不同模態數據的樣本數量不均衡、樣本分布差異明顯,影響模型推理效果。為此,引入時空對齊與語義匹配機制,以提升跨模態數據語義空間的一致性。同時,引入模態補齊策略,通過相似度計算的方式補齊缺失數據,緩解數據缺失帶來的模型性能問題。
(3)微調數據集構建
利用多模態數據微調大模型,提升大模型在引調水工程安全領域的適用性。在構建微調數據集時,通常將數據組織為多輪對話列表的形式,每輪對話包含指令、輸入和輸出三部分。其中,指令表示用戶對模型的請求或任務描述,輸入是指模型接收到的文本或圖像,輸出表示模型對用戶的響應或解答。構建微調訓練數據集首先需要對多模態數據進行標簽標注,本研究采用正則化匹配的方法對多模態數據中的相關知識進行標注。然后,通過格式轉換將其轉換為多輪對話列表,作為大模型的輸入。以多模態巡檢文本及圖像為例,標簽標注與格式轉換的過程如下圖所示。
巡檢文本及圖像的標簽標注與格式轉換過程示意
2.基礎大模型選取與微調
(1)基礎大模型選取
引調水工程安全智慧監管涉及風險的識別、評估、預案生成等任務,要求大模型具備較強的問題推理、多模態數據解析、數學計算、內容生成能力。根據公開評測結果,DeepSeek-R1、ChatGLM4、Qwen3、QWQ、QVQ等國產大模型在上述方面能力較強。因此,本研究主要采用上述模型作為基礎大模型,各模型的參數規模、支持的數據模態如下表所示。
本研究選用的國產基礎大模型
(2)基礎大模型微調
LoRA(Low-Rank Adaptation)是一種高效的參數調優技術,該技術能夠保持模型大部分參數不變的情況下,僅對兩個低秩矩陣進行優化,大幅降低模型微調的計算復雜度。為提升大模型在引調水工程安全領域的適用性,利用多輪對話列表微調基礎大模型,本研究基于LoRA技術進行大模型微調。對于語言大模型DeepSeek-R1、QWQ采用自回歸語言建模、多任務混合學習等微調策略;對于多模態大模型ChatGLM4、Qwen3、QVQ,采用圖文對比學習的微調策略。
3.多模態工程安全知識圖譜構建
大模型經過微調后,雖具備一定的領域應用能力,但在數據時效性、推理的可解釋性、可追溯性方面仍存在不足。為提升大模型可靠性和推理能力,需構建多模態工程安全知識圖譜,作為大模型的外部知識庫。知識圖譜是一種結構化的語義網絡,將不同維度的工程安全知識抽象為實體和關系,實現工程安全知識的結構化表征。進一步,通過RAG技術從知識圖譜中檢索動態知識,可有效提升大模型響應的可靠性與推理能力。多模態工程安全知識圖譜的構建過程包括本體構建、實體和關系抽取、知識圖譜三元組存儲三個階段。
多模態工程安全知識圖譜構建過程
(1)本體構建
構建知識圖譜本體模型,可為知識圖譜提供一種標準化、一致化的知識表示形式。從風險防控的目標出發,各類風險信息是識別、評估和處置風險的關鍵;風險的綜合量值與等級可用于優化資源分配、提升決策效率;適用的風險預防和處置措施可以減少事故發生。因此,多模態工程安全知識圖譜本體模型主要包含3類概念,即工程安全運行中的各類風險信息、衡量風險綜合量值與等級的風險特征、風險的預防及控制措施。多模態工程安全知識圖譜中實體和關系的基本定義、本體模型的邏輯關系如下圖所示。
實體和關系的基本定義
多模態工程安全知識圖譜本體模型的邏輯關系
(2)實體和關系抽取
根據本體定義的概念及關系,利用微調后的大模型與動態提示策略提取多模態數據中的實體和關系。大模型對于復雜的推理任務通常存在可靠性差、準確性不足等問題。動態提示策略旨在大模型推理過程中實時調整輸入指令或上下文信息,有效提升模型在復雜場景下的適應能力。融合大模型與動態提取策略的實體和關系抽取方法如下。
①動態提示模板構建。多模態工程安全知識圖譜構建的動態提示模板主要包含角色、上下文、約束、輸出格式4個部分。其中,角色是為了明確大模型的任務身份,增強指令的遵循性;上下文是指與任務相關的背景或細節描述;約束是給出推理任務的硬性要求,以保證大模型輸出的規范性、可用性;輸出格式明確了輸出規范,便于后續的自動處理或解析。
多模態工程安全知識圖譜構建的動態提示模板
②實體和關系抽取。根據本體定義的概念及關系,抽取多模態數據中的16種實體、13種關系。本研究融合大模型與動態提示策略,將實體和關系抽取任務拆分為通用提取、實體提取、關系提取共3個模塊。通用提取模塊是根據輸入數據的來源,將該數據中可能出現的實體類型作為上下文,使用[CLS]與[SEP]分隔符將提示與問題合成指令輸入大模型,獲取輸入數據中的實體類型;實體提取模塊是根據要提取的實體類型,將可能的實例作為大模型的上下文,獲取輸入數據中的各類實體;關系提取模塊是根據獲取到的各類實體,將實體間的潛在關系作為上下文,進而獲取輸入數據中的實體關系三元組。融合大模型與動態提示策略的風險實體及關系提取過程如下圖所示。
融合大模型與動態提示策略提取巡檢數據中的風險實體及關系
(3)知識圖譜三元組存儲
本研究采用Neo4j圖數據庫存儲知識圖譜三元組。對于知識圖譜中的風險實體e,構造一個圖節點ne,以實體名作為ne的標簽,每個圖節點由唯一的標識符(如ID或URI)來標識。對于兩個實體之間的關系r,構造一個有向邊nr,以兩實體間的關系類型作為nr邊標簽,以關系權重作為nr的屬性。所有的知識圖譜三元組都可以表示為<實體,關系,實體/屬性值>。
4.基于多模態知識圖譜的檢索增強生成
利用RAG技術從多模態知識圖譜檢索結構化動態知識,可以提升大模型的可靠性及推理能力。下圖給出了基于多模態知識圖譜的檢索增強生成過程,主要包含知識庫構建、知識檢索與生成兩個部分。
基于多模態知識圖譜的檢索增強生成
(1)知識庫構建
將多模態知識圖譜三元組向量化,構建為大模型的外部知識庫。本研究采用“實體-子圖”的雙層嵌入策略,實現知識圖譜的向量化。雙層嵌入策略是結合實體和子圖兩個層面,在子圖層面保持較大的知識單元,提供豐富的上下文信息,在實體層面確保精準的語義匹配,旨在平衡精準匹配與全面的上下文信息。
(2)知識檢索與生成
檢索外部知識庫并將檢索結果作為大模型的上下文,提升大模型推理的可靠性。給定用戶問題,首先通過“實體-子圖”的雙層分片結構,進行實體層面的語義相似性計算,并根據計算結果獲取對應的上下文信息;然后,將檢索的前5項結果作為提示信息,與用戶問題結合共同作為大模型的輸入;最后,大模型根據輸入數據進行推理,實現問題響應與內容生成。
5.多智能體協同的智能決策鏈構建
為提升大模型對復雜業務的處理能力,需構建多智能體協同的智能決策鏈。多智能體協同是指通過多個具備感知、決策、執行能力智能體的動態交互與組耦合以完成各項復雜任務。當面對引調水工程安全監管中復雜、多階段的應急決策場景時,大模型需要靈活接入各類外部服務。本研究提出面向引調水工程安全的智能決策鏈構建技術,通過目標規劃、任務拆解、模型編排、流程迭代等關鍵步驟,有效提升大模型的應急決策能力。
多智能體協同的智能決策鏈構建過程
(1)智能體構建
構建面向引調水工程安全的智能體,首先需要明確智能體的角色類型。本研究所構建的智能體包含場景判定、資源調度、人機交互、反饋優化4種通用角色,以及風險識別、風險評估、預案生成3種特定角色。其次,需明確各智能體之間的通信及調度機制,保障智能體的高效協作能力。本研究采用提示工程與共享空間相結合的方式,實現智能體的通信與調度。其中,提示工程通過設計規范化的提示模板,使上游智能體以自然語言/結構化方式生成調用請求,傳遞給下游智能體;共享空間通過建立外部獨立、內部共享的讀寫空間,使所有內部智能體均可讀取歷史任務狀態、指令、上下游輸入輸出等。
(2)決策鏈設計
設計多智能體協同的智能決策鏈需要明確業務目標、流程、數據資源等。本研究利用風險應急決策方案、標準規范、工程巡檢數據,按照風險識別、風險評估、預案生成等步驟,實現工程安全智慧監管。進一步,通過建立反饋機制實時評估各智能體的決策過程,優化決策鏈的正反算邏輯,本研究采用人工與自動化相結合的實現方式。一方面,設定模型的預期輸出結果,將實際輸出與預期結果作比較,給出評價反饋,用于反向調優決策鏈;另一方面,在應急方案生成等關鍵決策環節,采用專家打分、排序等方式進行人工審閱和確認。
6.支撐業務應用
為實現大模型驅動的工程安全智慧監管,本研究構建風險識別、風險評估、預案生成的智能決策鏈。風險識別決策鏈分析多模態工程安全數據,識別其中的各類風險,并結合多模態知識圖譜分析當前風險引發的潛在風險;風險評估決策鏈分析不同風險的概率性、嚴重性,并根據行業標準確定風險的綜合量值與等級;預案生成決策鏈分析不同風險的應急處置措施,并生成應急預案。風險識別、風險評估和預案生成的模型編排與流程設計邏輯見下圖。
模型編排與流程設計邏輯
(1)風險識別
記錄工程安全風險的多模態數據主要包括圖像、文本。對于圖像數據,智能決策鏈首先調用圖像分析模型,獲取與當前圖像相似度較高的歷史圖像,并提取其風險描述信息;然后,基于提示工程將描述信息作為視覺大模型的上下文,辨識圖像中的風險信息。對于文本數據,結合思維鏈策略與文本大模型,逐步識別文本中的風險信息。在此基礎上,對多模態知識圖譜進行檢索,獲取圖譜中風險因子、風險事件、風險后果間的關聯關系,分析當前風險的潛在驅動因素或可能引發的相關風險。
(2)風險評估
基于引調水工程安全行業標準,設計面向工程安全風險評估的智能決策鏈。首先,智能決策鏈執行知識檢索,獲取存儲在多模態知識圖譜中的風險嚴重度;其次,調用概率統計模型,通過計算不同風險的發生次數與樣本總數比值,確定不同風險的發生概率;最后,調用風險矩陣模型,計算風險嚴重度與發生概率的乘積,獲取風險的綜合量值,并根據多模態知識圖譜中風險量值區間與風險等級的對應關系,確定風險等級。
(3)預案生成
對于預案生成,智能決策鏈需針對不同風險,生成不同的應急預案。首先,根據不同的風險事件,檢索與該風險相關的歷史案例以及風險處置的行業標準、業務規則,形成大模型的上下文信息;然后,文本大模型結合問題信息與上下文信息,生成符合當前場景的應急響應方案;最后,結合風險響應方案與應急預案模板,通過預案生成模型完成應急預案的構建與生成。
模型驗證與分析
1.評估指標
本研究利用精確率()、召回率()和作為評估指標,對本文模型進行有效性評估。其中,精確率衡量模型的分析結果中有多少是正確的,召回率衡量模型正確分析結果的樣本覆蓋度,值為精確率、召回率的調和平均值,用于評估模型的綜合性能。精確率、召回率和的值越大,表示模型性能越好。精確率、召回率和分別定義如下:
式中,表示分析結果正確的正樣本數量,表示分析結果錯誤的正樣本數量,表示分析結果錯誤的負樣本數量。
2.結果與討論
(1)知識抽取結果分析
知識抽取是一種檢驗大模型掌握和運用領域知識能力的方式。本研究構建的多模態大模型不僅能夠利用圖像、文本等工程安全管理數據抽取實體和關系,還通過“微調+動態提示”的方式進一步提升知識抽取準確率和計算效率,下表給出了不同模型在多模態數據上進行知識抽取的結果。在模型準確性方面,可以發現DeepSeek-R1結合微調與動態提示策略,識別精確率、召回率、均值分別達到0.832、0.826、0.827,識別準確性最優。實驗結果說明,利用領域數據微調后的DeepSeek-R1更加理解工程安全風險的相關概念和邏輯,在微調的基礎上結合動態提示策略,通過實時調整輸入指令或上下文信息,進一步提升了模型在復雜場景下的適應能力。在模型效率方面,可以發現推理模型DeepSeek-R1、QWQ、Qwen3的總體效率低于ChatGLM4模型。這是由于推理模型采用了混合專家、長鏈思維等策略,使推理過程更加復雜,模型的計算效率更低。本研究基于微調與動態提示策略,通過輸入上下文信息引導模型快速聚焦當前任務的語義空間,使其能夠在保持復雜推理能力的同時,實現更具針對性的快速響應。
不同模型在風險識別任務上的實驗結果
(2)知識圖譜構建結果分析
本研究利用多模態數據構建了引調水工程安全知識圖譜。工程安全知識圖譜主要包含風險事件、風險類型、風險點、控制措施、處置措施等實體。其中,某風險點(見下圖)輸水渠道面臨襯砌板隆起、渠道滲漏、渠坡失穩等風險事件,襯砌板隆起可誘發渠道滲漏,而渠道滲漏可能導致渠坡失穩,呈現出明顯的鏈式傳播關系。此外,針對渠坡失穩的控制措施包括:采用塊石、編織袋等對渠堤外坡進行防護,配合調度運行降低上游渠道的運行水位,在一級馬道外側植入鋼管樁,以及采用防水膜覆蓋變形體外露區域等。在工程安全監管過程中,上述知識可用于辨識潛在隱患,評估風險的綜合量值水平,生成不同風險的應急處置措施。
引調水工程安全知識圖譜某風險點分析
(3)風險識別結果分析
對工程安全運行過程中的各類風險進行識別,并結合知識圖譜的拓撲結構辨識潛在風險,4類風險的識別精確率、召回率和值如下表所示。可以看到,4類風險的識別精確率、召回率和的平均值分別為0.893、0.724和0.838。其中,人為風險的識別效果最差,管理風險的識別效果最優。不同風險的關聯關系如下圖所示,圖中節點的大小表示節點度,即與該節點相連的邊數量,兩節點間的邊寬度表示關系權重。可以看到,風險節點“襯砌板裂縫”“襯砌板下滑、隆起”“一級馬道產生縱向裂縫”的節點度較高,表明與這些風險節點相連的節點較多,即由該風險引發的其他風險或對該風險產生影響的風險較多。通過對比可以發現,“襯砌板裂縫”與“襯砌板下滑、隆起”之間的關系權重高于“襯砌板裂縫”與“一級馬道產生縱向裂縫”之間的關系權重,這表明當“襯砌板裂縫”事件發生時,“襯砌板下滑、隆起”的事件發生概率要高于“一級馬道產生縱向裂縫”。在工程安全監管過程中,應加強關注節點度較大的風險事件,以減少潛在隱患。考慮到不同風險之間的關聯強度不同,應建立差異化管理機制,提升管理效率與能力。
四類風險事件實體知識融合的準確率水平
知識圖譜中風險事件的關聯關系
(4)應急預案生成結果分析
多模態工程安全大模型根據風險識別和分析結果,針對可能發生的事故生成專門的應急預案。考慮到風險情景的不確定性,用戶可以要求大模型推薦多個方案供參考,并根據方案的適用性進行排序,生成應急預案集合。使用歷史風險處置案例進行測試,觀察在不同集合大小的設定下,應急預案集合是否包含正確的處置方案,對大模型的預案生成能力進行定量評價。下表給出了推薦集合的前1、3、5個方案命中正確方案的精確率、召回率和值。可知,本研究方法生成風險應急預案的精確率、召回率和總體高于0.7。其中,正確方案位于推薦方案集合首位的準確率為0.723,位于前3的準確率為0.743,位于前5的準確率為0.754。在工程安全監管過程中,可根據現場資源與響應需求動態設定“僅采納首選方案”或“多方案并行”策略,實現“快速預案+人工審定”的人機混合決策流程,既可以保證推理效率,又兼顧安全與合規。
推薦集的前個方案為正確方案的評估指標值
(5)面向工程安全的多模態大模型平臺
本研究利用Ollama平臺發布引調水工程安全智慧監管大模型,并基于Dify平臺將多模態大模型集成至業務工作流。以風險事件“邊坡開裂、垮塌”為例進行多輪問答,大模型響應結果如下圖所示。可以看到,本文所構建的多模態大模型可以準確識別巡檢文本中的風險地點“截流溝”和風險事件“邊坡開裂、垮塌”。同時,也識別到了巡檢圖像描繪的風險信息,提取了風險事件。在此基礎上,評估了該風險影響的多個渠段,以及對應的風險等級。最后,多模態大模型根據檢索到的知識庫內容,生成了“邊坡開裂、垮塌”的風險基本特征、風險量值、風險控制措施等。
風險識別、風險評估、預案生成的模型響應結果
結論
本研究融合多模態大模型與知識圖譜技術,提出一種“感知—認知—決策”的工程安全智慧監管模式。案例研究結果表明,本研究方法可以有效支撐引調水工程安全智慧監管,主要結論如下。
①利用標準規范、風險應急管理資料、巡檢文本及圖像、多光譜遙感影像對多模態大模型進行微調,提高了模型在工程安全領域的適用性。融合多模態大模型與動態提示策略,實現了實體和關系的聯合提取,構建了面向引調水工程安全的多模態知識圖譜。
②利用多模態知識圖譜為大模型提供結構化知識,解決了大模型在問題響應過程中的數據時效性、推理可解釋性、可追溯性問題,提升了大模型的可靠性及推理能力。
③構建了多智能體協同的智能決策鏈,提升了大模型對復雜業務的處理能力,有效支撐了工程安全監管中的風險識別、風險評估、預案生成業務。
受案例數量和知識覆蓋度的限制,大模型采用了基于風險矩陣的風險評估方式,通過風險事件的概率性和嚴重性確定風險等級,因而風險評估的精細化水平有待提高。未來研究將考慮引入結構穩定性計算智能體,通過調用有限元計算進行結構穩定性分析,提高風險評估的精細化水平。
Abstract: With the comprehensive development of the “sky-space-earth-water-project” integrated monitoring system, safety management data of water diversion projects exhibit characteristics of multi-source heterogeneity, large volume, and dynamic complexity. Traditional analysis and mining methods based on single-modality data face significant limitations in the context of intelligent safety supervision. By integrating multimodal large models with knowledge graph technology, an intelligent supervision paradigm of “perception–cognition–decision” is proposed. Based on standards and specifications, risk and emergency management materials, inspection texts and images, and multispectral remote sensing imagery, a multimodal large model is fine-tuned and combined with a dynamic prompting strategy to construct a multimodal knowledge graph for engineering safety. Retrieval augmented generation (RAG) and the structured knowledge within the knowledge graph are employed to enhance the model’s reliability and reasoning capability in specialized domains. A collaborative multi-agent decision chain construction method is introduced, enabling the coupling of model capabilities through dynamic task orchestration to support risk identification, assessment, and contingency planning in safety management. Experimental results show that the proposed method achieves high accuracy in multimodal knowledge extraction, providing effective support for intelligent safety supervision of water diversion projects.
Keywords: multimodal large model; multimodal knowledge graph; intelligent safety supervision; water diversion projects
本文引用格式:
王立虎劉雪梅李海瑞等.引調水工程安全智慧監管多模態大模型構建技術研究[J].中國水利,2025(11:8-19.
責編呂彩霞
校對|劉磊寧
審核王慧
監制軒瑋
聲明:本文系轉載自互聯網,請讀者僅作參考,并自行核實相關內容。若對該稿件內容有任何疑問或質疑,請立即與鐵甲網聯系,本網將迅速給您回應并做處理,再次感謝您的閱讀與關注。
不想錯過新鮮資訊?
微信"掃一掃"