“構(gòu)建材料人工智能需摒棄‘萬能大模型’幻想”
——中國鋼研首席科學(xué)家談如何構(gòu)建“AI友好數(shù)據(jù)集”

2025-05-27 07:45:00

　　本報記者樊三彩

　　自大模型爆火以來，國內(nèi)外相繼發(fā)布了多項材料大模型：2023年11月，谷歌發(fā)布材料AI（人工智能）模型 GNoME；2023年12月，微軟發(fā)布了材料AI生成模型 MatterGen；2024年6月，清華大學(xué)團隊發(fā)展出DeepH通用材料模型，并展示了一種構(gòu)建材料大模型的可行方案；2025年2月份，松山湖實驗室發(fā)布MatChat材料大語言模型；2025年3月份，北京鋼研新材發(fā)布“AI新材道”智能選材大模型。

　　“這些工作引領(lǐng)著未來，但也帶來了爭議。”近日，中國鋼研科技集團數(shù)字化研發(fā)中心首席科學(xué)家蘇航在接受《中國冶金報》記者采訪時發(fā)出4連問：我們?nèi)绾涡湃魏万炞C黑盒模型給出的結(jié)果？我們需要通過模擬數(shù)據(jù)進行模型訓(xùn)練嗎？機器學(xué)習(xí)能否引領(lǐng)實現(xiàn)原始創(chuàng)新？帶有幻覺的模型適合科學(xué)研究嗎？“這些問題將深刻影響未來10年材料人工智能的發(fā)展方向。”蘇航認為。

　　“早在上世紀80年代，中國科學(xué)院就有一個材料模式識別學(xué)派，將機器學(xué)習(xí)應(yīng)用于新材料發(fā)現(xiàn)，后來一度中斷的主要原因就在于很難獲取高質(zhì)量的數(shù)據(jù)集。”蘇航認為，今天我們要發(fā)展有價值的AI材料模型，首先需要構(gòu)建起“AI友好的數(shù)據(jù)集”。

　　廣義而言，AI for Science（科學(xué)人工智能）起源于大科學(xué)項目。大型望遠鏡、衛(wèi)星、基因測序儀、同步加速器、中子源和電子顯微鏡，每年生成PB（十萬兆字節(jié)）級乃至EB （百萬兆字節(jié)）級的數(shù)據(jù)量，從中提取有價值的信息對科學(xué)家而言是艱巨的挑戰(zhàn)，因而機器學(xué)習(xí)成為必然選擇。當(dāng)前，AI for Science的成功主要在自然科學(xué)領(lǐng)域，而非技術(shù)科學(xué)領(lǐng)域。

　　“相比傳統(tǒng)機器學(xué)習(xí)回歸模型，大模型有兩個必要的特征，一是參數(shù)量足夠大，二是具備泛化（外推）能力。它們對高質(zhì)量數(shù)據(jù)的要求包含4個方面。”蘇航進一步闡釋道，一是同源性。數(shù)據(jù)來源統(tǒng)一，消除未知因素的干擾，但文獻數(shù)據(jù)不滿足同源性。二是分散性。空間上樣本盡可能分散，“好”“壞”數(shù)據(jù)兼?zhèn)洌I(yè)生產(chǎn)數(shù)據(jù)不滿足分散性。三是可信性。數(shù)據(jù)的來源、去向、產(chǎn)權(quán)、責(zé)任清晰，匿名網(wǎng)絡(luò)數(shù)據(jù)、強制征集數(shù)據(jù)的可信性不高。四是完備性（特別針對大模型）。數(shù)據(jù)覆蓋特征空間大部分可能的模式、形成閉環(huán)，目前材料領(lǐng)域僅計算數(shù)據(jù)相對完備。

　　“數(shù)據(jù)閉環(huán)是AI生成的前提。國際上現(xiàn)有成功的科技大模型的共同特征是：具備大科學(xué)項目研究背景，具備完備閉環(huán)、開源的數(shù)據(jù)集積累。”蘇航補充道，目前在世界范圍內(nèi)，還不具備建立通用材料大模型的數(shù)據(jù)基礎(chǔ)，但越小的領(lǐng)域內(nèi)越有可能出現(xiàn)突破性的AI應(yīng)用，前提是數(shù)據(jù)集相對完備。

　　“要在細分領(lǐng)域獲得與專業(yè)人士相當(dāng)?shù)念A(yù)測能力，需要達到一定的基礎(chǔ)數(shù)據(jù)量，即我們稱之為Scaling Law的數(shù)據(jù)下界；同時，數(shù)據(jù)采樣應(yīng)盡可能遍歷所有特征模式。如鋼鐵金相圖譜的可能特征模式在20種左右，達成閉環(huán)的數(shù)據(jù)量僅需要數(shù)百張覆蓋所有特征的照片，而不是數(shù)萬張。這意味著在細分領(lǐng)域建立具備無限泛化能力的材料AI，并不一定都需要大規(guī)模的數(shù)據(jù)集。”蘇航舉例道。

　　“在材料為代表的工程科學(xué)領(lǐng)域，須適應(yīng)AI對大數(shù)據(jù)的需求，改變傳統(tǒng)上以驗證為主的科研模式，建立AI友好的矩陣化數(shù)據(jù)生產(chǎn)新模式，才能讓AI加速技術(shù)發(fā)現(xiàn)與發(fā)明。”蘇航介紹，中國鋼研正在實踐“計算數(shù)據(jù)+實驗數(shù)據(jù)+應(yīng)用數(shù)據(jù)”的矩陣化數(shù)據(jù)生產(chǎn)新模式，取得顯著成果。

　　中國鋼研新材道團隊開發(fā)了區(qū)塊鏈材料數(shù)據(jù)發(fā)現(xiàn)與共享協(xié)議，配合材料模式識別、隱私計算，讓數(shù)據(jù)可用但不可見。2023年，中國鋼研發(fā)布全球首個“材料數(shù)據(jù)區(qū)塊鏈通則”，建立了包括鋼鐵、裝備制造、裝備用戶在內(nèi)的10多個企業(yè)私有云，50個鋼鐵企業(yè)輕節(jié)點；已覆蓋6000多個國家、團體、企業(yè)的產(chǎn)品標(biāo)準(zhǔn)，20多萬種鋼鐵、高溫合金、焊材、鋁合金的材料產(chǎn)品。

　　“在我看來，當(dāng)前形勢下，構(gòu)建材料人工智能（AI for Material）需摒棄‘萬能大模型’幻想，重點關(guān)注3個方向的技術(shù)工作。”蘇航表示。

　　一是細分領(lǐng)域完備數(shù)據(jù)集建設(shè)和專業(yè)模型的開發(fā)，如材料產(chǎn)品數(shù)據(jù)集，金屬多元相圖，金相組織，基于自動生成數(shù)據(jù)集的試驗、計算模型等，基于材料區(qū)塊鏈的多節(jié)點數(shù)據(jù)協(xié)同可加速完備數(shù)據(jù)集的形成。

　　二是大語言模型智能體(AI Agent)的創(chuàng)新應(yīng)用。基于通用大語言模型，建立AI輔助計算、建模、設(shè)計智能體群，并實現(xiàn)多智能體協(xié)同。

　　三是以場景創(chuàng)新驅(qū)動方法論創(chuàng)新。“新賽道無常路，無需跟隨。AI領(lǐng)域，美國的優(yōu)勢在技術(shù)，中國的優(yōu)勢在場景，但場景創(chuàng)新可以反過來驅(qū)動AI技術(shù)進步，DeepSeek（深度求索）就是范例。”他說。

　　《中國冶金報》（2025年05月27日 04版四版）

來源：中國冶金報-中國鋼鐵新聞網(wǎng)

編輯：宋玉錚

下一篇：河鋼實現(xiàn)“模型+數(shù)據(jù)集”雙資產(chǎn)形態(tài)入表

版權(quán)說明

【1】凡本網(wǎng)注明"來源：中國冶金報—中國鋼鐵新聞網(wǎng)"的所有作品，版權(quán)均屬于中國鋼鐵新聞網(wǎng)。媒體轉(zhuǎn)載、摘編本網(wǎng)所刊作品時，需經(jīng)書面授權(quán)。轉(zhuǎn)載時需注明來源于《中國冶金報—中國鋼鐵新聞網(wǎng)》及作者姓名。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
【2】凡本網(wǎng)注明"來源：XXX（非中國鋼鐵新聞網(wǎng)）"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng) 贊同其觀點，不構(gòu)成投資建議。
【3】如果您對新聞發(fā)表評論，請遵守國家相關(guān)法律、法規(guī)，尊重網(wǎng)上道德，并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
【4】如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的。電話：010—010-64411649