【作者】
夏俊豪、佟瑤、龍瀛
清華大學恒隆房地產研究中心
【原文信息】
Xia, J., Tong, Y., & Long, Y. (2025). Advancements in the application of large language models in urban studies: A systematic review. Cities, 165, 106142.
【論文鏈接】
https://www.sciencedirect.com/science/article/pii/S0264275125004433
內容導讀
龍瀛教授團隊的研究論文“Advancements in the application of large language models in urban studies: A systematic review”(《大語言模型在城市研究中的應用進展:系統性綜述》),在SCI期刊Cities在線發表。Cities目前為JCR Q1期刊。
大語言模型(LLM)在解決復雜問題上擁有強大的綜合能力,并已越來越多地被應用于更好地闡釋城市現象。在大語言模型浪潮中,城市研究領域的學者迫切需要了解以往的研究工作是如何在各個學科中融合大語言模型的。本文中,我們對233篇關注大語言模型在城市研究中應用的論文進行了系統性綜述。我們借助一個定制的生成式預訓練變換器(GPT)助手從這些論文中提取信息,以分析其發展趨勢,并對不同子領域進行了深入評述。研究結果顯示,相關研究在過去六年中呈指數級增長,大語言模型已被應用于文本分析與生成、領域知識問答以及行業相關任務等多種場景。此外,基于GPT和基于BERT(來自Transformers的雙向編碼器表示)的模型已成為最常用的兩種模型,而嵌入(embedding)和微調(fine-tuning)是數據處理與模型適配的主流方法。論文還探討了關于大語言模型的常見問題,并指出了其未來在城市研究中的機遇。本項綜合性分析旨在為正在探索大語言模型在城市研究中應用的研究者,以及那些尚未開始在研究中使用這些模型的學者提供寶貴的見解。
圖1:研究框架示意圖
研究方法
1.文獻篩選與數據來源:研究以Web of Science (WoS) 為文獻來源數據庫,并將檢索時間范圍限定為2015年1月至2025年4月。在關鍵詞策略上,檢索詞由“城市研究”與“大型語言模型”相關的詞構成,通過數據庫檢索和多輪人工篩選,結合引文追溯法補充文獻,最終篩選出233篇符合條件的文獻進行分析。
2.文獻標記與統計方法:在文獻信息提取與標注上,研究構建了包含研究領域、應用場景、數據處理方法、模型提升方法和所用預訓練模型五個維度的分析框架,為高效處理篩選的233篇文獻,研究利用GPT-4o構建定制化AI助手,根據預設框架對每篇文獻進行結構化的信息提取,對AI助手提取的結果進行隨機抽樣與人工核驗,準確率達89%,針對AI提取的全部文獻結果人工修訂并按照五個維度進行分析總結。
研究發現
1.描述性分析:研究發現,大語言模型在城市研究中的應用自2020年以來呈指數級增長,在研究領域上,早期研究以城市社會學、城市環境與能源等領域為主,逐步擴展至城市交通、城市管理和城市規劃設計等更復雜的領域,其中城市交通方向的成果最為豐富。在應用場景上,除了情感分析、文本分類和命名實體識別等通用的文本處理任務外,還涌現出大量與領域深度結合的特定應用場景,例如人類移動分析、交通流預測、街道空間感知和地理編碼等等,同時通過問答測試模型在特定領域中的能力也是較為常見的應用場景。在數據處理與模型提升方法上,研究者廣泛采用嵌入構建來表征文本,以及利用多模態對齊來融合異構數據,超過半數的研究采用了成本相對高昂的微調策略來提升模型表現,同時大模型也常與其他模型集成使用。最后,在所用的預訓練模型上,研究多用GPT系列的模型,BERT因其高效的文本編碼能力也廣受歡迎,此外還有例如LLaMA、Qwen等的開源模型。
2.研究者對大模型的態度:盡管大模型在城市文本分析、事件模擬、特定場景響應等任務上表現出強大的能力,但研究者仍在幾個層面存在擔憂,首先模型存在生成不實信息的“幻覺”問題,可能包含扭曲現實的地理或文化偏見,因依賴靜態訓練數據而難以泛化到動態多變的真實城市場景中,其次高昂的計算與環境成本對研究團隊的經濟負擔與總體能源消耗提出挑戰,然后是相比傳統的深度學習方法,大模型在特定場景下的表現未必能夠超過前者的表現,最后在倫理與邏輯層面,數據隱私泄露、決策過程不透明等也是需要解決的問題。
3.未來方向:大模型在城市研究中存在較大的應用潛力,首先應用領域將持續拓寬,例如延伸至城市經濟學和城市發展演化等更宏觀的議題,其次大模型應用可能出現分化,即由輕量化的模型處理簡單場景,而參數龐大的模型則專注于解決復雜難題,然后是通過精心的提示工程設計或結合檢索增強生成的技術,大語言模型作為“領域專家”的潛力有待進一步發掘,最后從智能體的角度看,大模型可以通過與海量城市知識庫的交互來揭示隱藏的城市動態與規律,從而催生新的研究假說為研究者提供啟發。
圖2:不同研究領域文獻發表年份和文獻數量
圖3:研究領域和應用場景關聯
聲明:本文系轉載自互聯網,請讀者僅作參考,并自行核實相關內容。若對該稿件內容有任何疑問或質疑,請立即與鐵甲網聯系,本網將迅速給您回應并做處理,再次感謝您的閱讀與關注。
不想錯過新鮮資訊?
微信"掃一掃"