- 数据自助服务实践指南:数据开放与洞察提效
- (美)桑迪普·乌坦坎达尼
- 1263字
- 2022-05-20 19:18:43
第1章 数据介绍
数据是新的石油。目前,企业内部的结构化数据、半结构化数据以及非结构化数据的数据量呈指数级增长。在每个垂直行业,具备数据洞察力的企业往往有更强的竞争力,这些企业使用机器学习(Machine Learning,ML)模型来改善产品功能及业务流程。
当今的企业拥有丰富的数据,但缺乏数据洞察力。Gartner(https://oreil.ly/kg3MU)预测,到2022年,将有80%的数据分析与洞察无法带来业务成果。另一项研究(https://oreil.ly/Z6wcN)表明,87%的数据项目无法部署到生产环境中。来自谷歌的Sculley等人(https://oreil.ly/2xq7x)的研究表明,在生产中实现机器学习时,只有不到5%的工作花在了机器学习算法上(如图1-1所示),剩下95%的工作用在了数据(发现、收集和准备数据)以及数据工程(在生产中构建和部署模型)上。
图1-1:Sculley等人的研究分析了将机器学习模型投入生产所花费的时间。机器学习编码耗费了5%的时间,而剩余95%的时间花在了与数据工程相关的活动上
尽管在数据湖中收集了大量数据,但它们可能不一致、无法解释、不准确、不及时、未标准化或不充分。针对这样的数据,数据科学家不得不把大量的时间花在调整数据收集系统、定义元数据、为训练机器学习算法整理数据、大规模部署管道和模型等工程活动上。这些活动超出了数据科学家的核心洞察提取能力,并且由于对数据工程师和平台IT工程师的依赖而成为瓶颈——这些工程师通常缺乏必要的业务背景。工程的复杂性限制了数据分析师和科学家获取数据,导致数据无法在产品管理、营销、金融、工程等领域得到应用。市场上虽然有很多关于机器学习编程和数据技术研究的书籍,但是关于开发自助服务平台以支持广泛的数据用户所需的数据工程操作模式的书籍很少。
一些企业已经确定了自动化的需求,并实现了从数据到洞察自助服务的过程。谷歌的TensorFlow Extended(TFX)(https://oreil.ly/IzHKV)、Uber的Michelangelo(https://oreil.ly/mZiAI)以及Facebook的FBLearner Flow(https://oreil.ly/nOdbi)都是开发机器学习洞察的自助服务平台的例子。没有普遍适用的银弹策略。每个企业在现有技术构建块、数据集质量、支持的用例类型、流程和人员技能方面都是独一无二的。例如,为少数使用干净的数据集开发机器学习模型的数据科学家创建一个自助服务平台,与创建支持异构数据用户使用不同质量的数据集(并使用自制工具进行接入和调度)且支持其他构件块的平台截然不同。
尽管在数据技术上进行了大量投入,但根据我的经验,自助服务数据平台计划在执行过程中要么失败,要么中途放弃,原因有以下三点:
在沟通中迷失了数据用户真正的痛点
数据用户和数据平台工程师的视角不同。数据工程师不懂具体的业务问题且把握不到数据用户的痛点。数据用户不了解大数据技术的局限性和现实情况。这导致团队之间相互指责,无法得出一个持久的解决方案。
为了技术而采用“闪亮”的新技术
鉴于解决方案众多,团队经常采用下一个“闪亮”的技术,而不清楚减缓提取洞察的问题。很多时候,企业最终是为了技术而投资技术,而没有减少提取洞察的总体时间。
在转型过程中处理过多的问题
多种功能构成平台自助服务。团队的目标通常是处理所有方面的工作,这无异于煮沸大海。相反,开发自助服务数据平台应该像开发自动驾驶汽车(具有不同级别的自动驾驶能力)一样,在自动化程度和实现复杂性方面有所不同。