郭朝暉
大數據的概念源于搜索引擎等互聯(lián)網行業(yè)。在這些行業(yè)中,成千上萬個網站的數據不斷加入,數據格式各種各樣。互聯(lián)網公司認為這是個機會,但數據量大到難以處理。于是,谷歌提出一套辦法解決這類問題,大數據的概念就此產生了。在這種背景下,人們總結出了大數據的幾個特征,如數據量大、價值密度低、類型多、增加快等。其中有一個關鍵的問題——數據量大了怎么辦?
伴隨著摩爾定律的延續(xù),工業(yè)企業(yè)的數據也在不斷增加。于是,也有人提出了“工業(yè)大數據”的概念。但是,工業(yè)企業(yè)和互聯(lián)網企業(yè)的數據背景很不一樣。傳統(tǒng)工業(yè)企業(yè)一般只采集必須的數據,比如那些與生產控制和質量標準有關的數據,而設備狀態(tài)數據就很少存儲或存儲時間很短。人們希望得到更多的數據,但必須考慮采集和存儲的成本問題。這是另外一種“數據量大了怎么辦”的問題。現(xiàn)在,數據采集、傳輸和存儲的成本大大降低了,數據采集和存儲條件改善了,“數據量大了怎么辦”的困難也就弱化了。
由此可見,在工業(yè)和互聯(lián)網領域都曾面臨“數據量大了怎么辦”的問題。但是,在互聯(lián)網行業(yè),瓶頸是數據量大帶來的困難,這出現(xiàn)在數據量大的時候,需要用技術手段去解決;而在工業(yè)行業(yè),主要瓶頸是成本問題,出現(xiàn)在數據少的時候。所以,隨著數據越來越多,在互聯(lián)網行業(yè)的技術困難越來越大,而在工業(yè)行業(yè)獲得數據的經濟困難卻越來越小。從某種意義上說,工業(yè)領域的大數據時代是“不必考慮數據量大了怎么辦”的時代——因為現(xiàn)在有辦法解決了。
事實上,工業(yè)和互聯(lián)網領域對大數據的理解還有很多不同。比如,互聯(lián)網領域的數據分析強調相關性,而工業(yè)領域往往需要因果關系支撐,否則,分析結果的可靠性就難以保證,會給應用過程帶來極大的危害。再如,互聯(lián)網數據之間的關聯(lián)性相對較弱,而工業(yè)數據之間的關聯(lián)性很強。
然而,很多人仍然把互聯(lián)網公司的思想、概念和方法直接套用到工業(yè)界,這樣做會誤導工作的方向、喪失時代的機遇,是缺乏思考的表現(xiàn)。對于工業(yè)人來說,我們現(xiàn)在主要關心的不是“數據量大了怎么辦”,而是如何利用數據帶動技術和管理水平的提升、如何用數據帶來價值。
寶鋼信息技術奠基人何麟生先生在多年前就有一個愿望:“要有一個虛擬的數字化寶鋼,能夠在計算機和網絡平臺上充分地描述實體寶鋼的實時活動。”這樣的愿望,只有在大數據時代才有條件實現(xiàn)。因為只有數據足夠多的時候,才能完整、實時、準確地描述和記錄生產過程。就像寶鋼老專家王洪水先生說的“像錄像一樣地記錄生產過程”,這樣,數據才能反映生產過程的因果關系。
有了這樣的數據基礎之后,我們可以全面深入地推進智能化。在筆者看來,在短期內,鋼廠智能化的重點應該是管理和控制的融合。美國大河公司的實踐,證明了這個方向的正確性。
在工業(yè)大數據時代,可以通過工業(yè)互聯(lián)網等技術重構人和機器的界面來推進決策革命、提升企業(yè)的整體價值。這些技術又會導致更深刻的變化,如組織流程的重構、生產流程的再造、從服從到協(xié)同的文化轉變等。所有這一切,都是在“數據量大了不是問題”的前提下才能實現(xiàn)的。這才是工業(yè)大數據真正的意義所在。
(作者系優(yōu)也信息科技有限公司首席科學家,工業(yè)互聯(lián)網產業(yè)聯(lián)盟工業(yè)大數據組副主席)
《中國冶金報》(2020年09月15日 04版四版)