‘數據挖掘’理論出現了幾十年。但在工業界的成功應用并不多。筆者認為:重要的原因之一是缺乏一個合適的數據分析處理理論。筆者認為:用好工業大數據需要關注三個要點:
1、可靠性。可靠的結論才能用于工業實際。在本人看來,所謂可靠性,包含精確性、適用范圍的廣泛性和適用范圍的可知性。現實中,絕對的可靠是不存在的,我們只能追求相對的可靠。相對的可靠,可以由盡量多的、獨立的知識或分析結果來支撐。要做到可靠,就不能僅僅滿足與‘相關性’,而是要盡量關注‘因果性’。
這一點,工業大數據與商務大數據的理論是矛盾的。同時,可靠性要求我們盡量使用傳統的、有堅實理論基礎的統計方法——只是不能盲目適用這些方法,要關注對適用條件的驗證和構造。
2、超越性。新發現的知識一定要超越人的認識,否則就沒有價值。在商務活動中,人的認識相對模糊,大數據研究容易得到超越性的結果。在工業領域,人們對物理對象的了解往往非常深刻。膚淺的研究很難超越人的經驗。這時,要讓新知識超越人的經驗,往往要以精確定量為基礎的。
我們不宜將發現不同于經驗的知識作為研究目標:在工業領域,與專家認識不同的結論多數是錯的。有例外的話,也往往是量變引發質變造成的——這種現象,正是以結論的精確定量為前提的。
3、嵌入性。大數據的應用必須嵌入合適的流程。一般來說,僅僅滿足于發現知識并不能創造價值。在工業應用中,常見的做法是將新發現的知識嵌入到生產和管理流程中去。最好用模型為載體來實現,促進流程的智能化。眾所周知,商務大數據的應用一般要結合新的商業模式。這一點,工業大數據與商務大數據是相通的。
來源:文章來源
注:文章內的所有配圖皆為網絡轉載圖片,侵權即刪!