中國冶金報社
記者 劉加軍 劉經緯 報道
7月27日,2025語料數據智能創意大賽(CICC)獲獎榜單在世界人工智能大會揭曉。寶信軟件“鋼鐵行業高質量多模態數據集筑基企業AI+應用”課題斬獲一等獎,研究成果入選2025年語料風云榜。

語料數據(Corpus Data)指為語言分析、模型訓練等目的系統化收集的真實文本或語音材料的集合,是自然語言處理(NLP)領域的核心資源,相當于AI學習語言的“教材”。在AI時代,語料是人工智能發展的核心基礎之一,甚至被譽為AI產業的“金礦”,是決定模型能力上限的核心要素。

上海作為中國人工智能發展的前沿陣地,已采取一系列措施來加強語料庫的建設和應用。此次大賽由上海市經信委指導,旨在面向全社會尋找“好語料、好技術、好場景”,為上海“模塑申城”工程筑牢語料基石,打通高質量語料數據采集、標注、共享、應用全鏈路。大賽吸引了150余支高水平團隊參賽,競爭激烈。經過賽事組委會及多家權威支持單位從方案完整性、領域適配性、技術創新性等多維度的多輪嚴格評審,寶信軟件參賽項目最終脫穎而出。

該獲獎課題致力于構建鋼鐵行業高質量多模態數據集,以推動AI技術在鋼鐵企業經營管理及生產制造中的深度應用。鋼鐵行業作為典型的流程制造業,生產環節復雜,涵蓋煉鐵、煉鋼、軋鋼等數十個工序,數據類型龐雜,既有設備傳感器的實時數據,也有生產報表、質檢圖像等非結構化信息,長期面臨“數據孤島”“標準不一”“質量參差”三大問題,導致AI技術難以深度滲透。該課題通過“規范制定-平臺研發-應用支撐”三位一體的實施路徑,有效解決了這些行業痛點問題。

該項目有著諸多核心創新點。?在全模態數據覆蓋?方面,整合OT/IT數據與文本、圖像/視頻等非結構化數據,支撐審計監督、質量預測、智能煉鋼等關鍵場景;在技術閉環構建方面,?集成數據采集、清洗標注及知識圖譜技術,融合大模型能力,形成“數據-模型-應用”協同體系。該項目在寶武某鋼鐵基地規模化應用后,?獲得缺陷檢測準確率提升30%等成果,已推廣應用至百余家鋼鐵企業并輸出11項行業標準,其中《鋼鐵企業多模態數據采集規范》《缺陷圖像標注指南》等填補了行業空白,為行業數字化轉型奠定了堅實基礎。