- 数据质量实践手册:4步构建高质量数据体系
- (美)普拉桑特·苏特卡尔
- 2221字
- 2024-12-18 17:26:43
前言
本书定位
如今,每家公司都可以说是数据公司,数据正在重新定义以数据分析和人工智能为核心的业务模式,它带来了新的收入来源,降低了成本,减少了业务风险。麦肯锡的一份报告称,数据驱动的组织可以提供高达25%的EBITDA(利息、税收和折旧前利润率)增长(Böringer等,2022)。波士顿咨询公司在2022年进行的一项研究中发现,全球前10家创新公司中的9家都是数据公司(Manly等,2022)。总体而言,数据被认为是当今业务创新和生产力的关键推动因素。
要从数据中获得业务价值,则需要优质的数据,但大多数行业都面临着低劣数据质量的问题。《哈佛商业评论》研究发现,在企事业单位中只有3%的数据符合质量标准(Nagle等,2017)。研究分析机构Gartner发现,全球顶级公司中有27%的数据存在缺陷。为了让组织从数据中获得竞争优势,本书为读者提供了实用性的指导和经过验证的解决方案,以获取高质量的业务数据。虽然市场上有很多关于数据质量的书籍,但本书有以下三个独特之处:
(1)这是一本写给数据相关领域从业者的书。本书基于作者在数据、数据分析和人工智能方面的经验,他为80多家公司提供过咨询,其中包括通用电气、SAP、宝洁、苹果和壳牌等大公司。此外,书中内容还得到了世界各地许多领先组织的高级数据和技术领导者的审核。
(2)这是一本符合当前市场和技术发展的书。如今,公司面临着激烈的竞争、扩大的业务网络、不断增加的监管合规性要求,以及新兴技术的挑战,如云计算、大数据、机器学习(ML)、人工智能(AI)、区块链、物联网(IoT)等。本书正是迎合了当前在人工智能和分析场景中管理高质量业务数据的需求。
(3)这是一本不限定于某种技术的书。市场上的许多与数据质量相关的图书都围绕IT产品展开,而本书则着眼于技术概念,不涉及任何专有或特定技术。本书旨在通过数据提高业务绩效。任何渴望获得高质量数据,并利用其进行决策支持和创新发展的企业领导者,都可以阅读此书。
本书原则
1.以数据消费者为中心
本书的目的是增加利用数据实现更好的业务绩效的机会。在以下三种关键情况下,可以提高数据的业务价值:存在高质量数据;侧重于数据的利用或消费;利用数据来提高和优化业务在运营、合规和决策方面的能力。简而言之,本书的重点是获取和管理高质量的数据,以改进业务运营、合规和决策方面的能力。
2.根因分析与持续改进
数据质量管理不是一次性活动,而是一个持续识别并解决根本原因的改进计划。因为如果没有找到问题的根本原因,问题就永远无法真正消除。因此,本书重点关注运用技术来确定数据质量问题的根源,并讨论了16个常见的导致企业数据质量下降的根源。
3.最佳实践的总结
本书致力于帮助企业提高数据质量水平,并依据行业最佳实践提供了10项具体的客观建议或最佳实践,其中包括提高企业数据质量所需要具备的能力。此外,本书还提供了许多基于调研和案例研究的见解。
4.业务相关性
本书适用于在当前业务、人工智能和分析环境中管理高质量数据。如果缺乏高质量数据,仅基于人工智能分析产生的洞察是无法改善业务绩效的。实际上,没有数据就没有人工智能,不考虑数据质量的人工智能没有意义。
本书结构
那么,企业如何获取和管理高质量的数据呢?获取和管理高质量数据的方法是什么?为了回答这些问题,本书提出一种4步构建高质量数据体系的DARS方法,该方法包括定义(Define)、评估(Assess)、实现(Realize)和持续(Sustain)。这种方法既是一种战略,也是一种战术,旨在从数据中为企业提供最大价值。本书依据经过验证的最佳实践,提供实用的指导建议,帮助读者在数据质量管理和治理方面取得成功。
本书分为四篇,对应4步DARS法实现的高质量数据体系。第一篇为定义阶段,旨在明确定义数据质量及其特征或维度,引导读者更好地理解数据和数据质量。第二篇为评估阶段,用于确定各项数据质量水平并查明数据问题产生的根源。第三篇为实现阶段,即贯彻行业最佳实践,改善整个生命周期的数据质量。第四篇为持续阶段,用于确保已实现的所有收益得以延续。
利用4步DARS法来改善和提高数据质量的过程类似于改善一个人的健康状况。首先,需要定义健康状态,因为健康可以从身体、精神、心理等多个方面来评估。其次,需要确定具体健康状况的特征或维度,例如,在身体健康方面,这些维度可能包括力量、灵活性、耐力等。再次,需要进行深入分析并理解问题产生的根本原因,因为通常问题只是表征或症状。例如,身体健康状况不佳的症状之一是疲劳,需要进行分析和评估以确定根本原因,如糖化血红蛋白(A1C)测试可能会表明导致疲劳感的根本原因是Ⅱ型糖尿病。因此,需要解决的问题是治疗Ⅱ型糖尿病而不仅仅是解决疲劳感。接下来,需要采取不同方法的组合来解决导致疲劳的Ⅱ型糖尿病,如药物、健康饮食(包括蔬菜、水果和全谷类)、冥想和定期锻炼。最后,需要采取正确的控制措施,并定期进行体检,以确保采取的措施可以持续下去。
本书分为12章,按照4步DARS法逐一展开,如图P.1所示。
图P.1 本书组织结构
本书读者
本书介绍了数据质量管理和数据治理的核心概念,还提供了一种逐步实现和保持高质量数据、提升业务绩效的方法论。该方法论适用于所有对利用业务数据价值有兴趣的人,包括业务团队和IT团队,不需要基础即可理解并应用本书中所述的概念。本书读者对象包括CFO(首席财务官)、CDO(首席数据官)、首席信息官、会计师、地质学家、IT开发人员、采购主管、理赔分析师、数据科学家、销售经理、数据治理分析师、承保人员、人力资源经理、其他商业或IT角色。简而言之,任何人都可以从本书中学习实现和保持高质量业务数据的方法。
参考文献