2.2 CRISP-DM模型落地的难点

CRISP-DM模型在工业领域的应用遇到一些问题,造成了该模型落地困难,主要的难点表现在以下3个方面。

1)工业数据关联关系复杂

无论是生产产品的工厂还是作为工业产品的设备,本质上都是多个要素互相作用所组成的系统,而它们的运行环境也可以看成更大的系统。因此,我们可以用系统的观点,统一地看待工业大数据所针对的工业对象。

研究一个工业系统时,要把注意力集中于研究多个要素是如何互相影响、互相作用的;否则,只会得到片面甚至错误的结论。正如列宁所言:“如果不是从整体上、不是从联系中掌握事实;如果事实是零碎和随意挑出来的,那它们就只能是一种儿戏,或者连儿戏也不如。”

2)工业数据质量差

从某种意义上说,工业大数据是工业系统在数字空间的映像。要想通过数据认识工业对象或过程,数据本身应该体现对象的系统性。然而,受到现实条件的约束,数据往往是工业对象不完整的体现。而且很多数据来源于某些特定的工作点上,参数波动中包含大量检测误差、数据的信噪比低。这就给数据分析过程带来了极大的不确定性,并容易对分析过程产生误导。

3)工业场景的分析要求高

工业界对不确定性的容忍度很低,这就要求数据分析结果尽可能地准确可靠。分析要求高而数据条件差且对象复杂性高是分析过程中必须面对的矛盾。在数据分析的过程中,这一矛盾表现为各种假象和干扰、分析结果总是难以满足用户的使用需求等。要解决这些矛盾,必须将工业过程领域专业知识、业务机理与数据分析过程有机地融合起来,贯穿于数据分析的每个阶段,这也使得工业大数据对业务理解的深度有较高的要求。