- 数据挖掘实用案例分析
- 赵卫东
- 575字
- 2021-03-30 21:58:36
1.2 数据理解
数据分析从字面上看是由数据和分析两部分组成的,其中数据是基础和根本,没有数据样本作为支撑,再好的结论也是无本之木,对现有数据理解到位有助于建立合理的分析框架。分析目标相关联的自变量数据往往可遇不可求,多数情况下,数据资料与分析的目标没有直接相关性,需要对数据本身进行探索,查看其数据特性或样本特征,结合这些特征来挖掘其与分析目标之间的关系。
为了提高数据分析的准确性,需要多维的源数据,数据量较大可能会产生更多的冗余数据,处理过程较麻烦,经过预处理和降维后,可以得到更多样的支持数据,在初创型企业的数据量较少的情况下,可通过爬虫抓取非结构化数据,并转化为结构化数据作为补充。
了解业务流程中数据产生过程,明确数据代表的意义,并对数据的结构和各字段之间的关系进行分析,在分析过程中需要结合业务逻辑,对数据的理解是整个数据分析过程的基础,如果这一过程出现问题,将影响最终分析结果的正确性。
从历史的角度,数据的产生过程本身是变化的,在时间的维度上,不仅要关心数据是如何产生的及产生的频度,还要关心用户的动作数据,这些都将产生趋势特征,在数据分析过程中,需要关注业务变化导致的数据变化。
同时,由于需求会发生变化,新的数据会加入进来,数据分析方案也要具有一定的扩展性,以应对企业发展的变化和原始数据变化带来的影响,能够在设计模型后对其进行修正和动态改进。