1.2 定义洞察耗时记分卡

洞察耗时是度量从原始数据到提取洞察所需时间的总体指标。在开发业务仪表盘和收入预测模型的示例中,洞察耗时表示完成整个提取洞察过程的总天数、周数或月数。根据经验,我将整个提取洞察过程划分为18个关键步骤,如上一节所述。每个步骤中都有一个指标,总体的洞察耗时就是所有18个指标的总和。

每个企业在与提取洞察相关的痛点上有所不同。以开发业务仪表盘为例,由于存在多个业务孤岛且缺乏文档,企业大部分的时间可能会花在解释数据、搜索数据上,而处于规范垂直行业的企业,其关键痛点可能是合规耗时。一般来说,由于现有流程的成熟度、技术、数据集、数据团队技能、行业垂直度等方面的差异,企业的痛点也不相同。为了评估数据平台的当前状态,我们使用了一个“洞察耗时”记分卡,如图1-3所示。这项工作的目标是确定整个提取洞察过程中最耗时的步骤。

025-01

图1-3:洞察耗时指标的记分卡

本书后续的每一章都对应于记分卡中的一个指标,并描述了使其实现自助服务的设计模式。以下是对指标的简要总结。

解释耗时

与在使用数据集提取洞察之前了解其元数据细节的步骤相关联。对数据集不正确的假设通常会导致提取错误的洞察。该指标的现有值取决于定义、提取和聚合技术元数据、操作元数据和团队知识的过程。为了最大限度地减少解释耗时并使之实现自助服务,第2章介绍了元数据目录服务的实现模式,该服务通过抓取源数据、跟踪数据集的数据沿袭,并以标签、验证规则等形式聚合团队知识这一系列过程来提取元数据。

搜索耗时

与搜索相关数据集和工件的步骤相关联。搜索时间过长会导致团队选择重新发明轮子,在企业内部开发数据管道、仪表盘和模型等的克隆,从而产生多个事实来源。该指标的现有值取决于现有的索引、排序和访问控制数据集与工件的流程。在大多数企业中,这些流程要么是临时的,要么是对数据平台团队的手动依赖。为了最大限度地减少搜索耗时并使之实现自助服务,第3章介绍了搜索服务的实现模式。

特征处理耗时

与管理训练机器学习模型的特征的步骤相关联。数据科学家花费60%的时间为机器学习模型创建训练数据集。该指标的现有值取决于特征计算和特征服务的过程。为了最大限度地减少特征处理耗时并使之实现自助服务,第4章介绍了特征存储服务的实现模式。

数据可用性耗时

与跨孤岛迁移数据的步骤相关联。数据用户花费16%的时间来迁移数据。该指标的现有值取决于连接到异构数据源、数据复制和验证以及适应数据源上发生的任何模式或配置更改的过程。为了最大限度地减少数据可用性耗时并使之实现自助服务,第5章介绍了数据迁移服务的实现模式。

点击指标耗时

与收集、管理和分析点击流数据事件的过程相关联。该指标的现有值取决于创建仪器信标(instrumentation beacon)、聚合事件、通过过滤丰富数据以及ID拼接的过程。为了最大限度地减少点击指标耗时并使之实现自助服务,第6章介绍了点击流服务的实现模式。

数据湖管理耗时

与管理中央存储库中的数据的步骤相关联。该指标的现有值取决于管理原始数据生命周期任务、确保数据更新的一致性,并将批处理数据和流数据一起管理的过程。为了最大限度地减少数据湖管理耗时并使之实现自助服务,第7章介绍了数据湖管理服务的实现模式。

整理耗时

与结构化、清理、丰富和验证数据的步骤相关联。该指标的现有值取决于确定数据集的数据整理需求、构建用于大规模整理数据的转换,以及操作监控正确性的过程。为了最大限度地减少整理耗时并使之实现自助服务,第8章介绍了数据整理服务的实现模式。

合规耗时

与确保数据权限合规的步骤相关联。该指标的现有值取决于跨应用程序孤岛跟踪用户数据、请求客户数据权限以及确保用例只使用客户同意的数据的过程。为了最大限度地减少合规耗时并使之实现自助服务,第9章介绍了数据权限治理服务的实现模式。

虚拟化耗时

与选择构建和分析数据的方法这一步骤相关联。该指标的现有值取决于编写访问存储在多语言数据存储中的数据的查询、跨数据存储关联数据的查询,以及在生产环境中处理查询的过程。为了最大限度地减少虚拟化耗时并使之实现自助服务,第10章介绍了数据虚拟化服务的实现模式。

转换耗时

与在数据和机器学习管道中实现转换逻辑的步骤相关联。转换可以是批处理的、近实时的或实时的。该指标的现有值取决于定义、执行和操作转换逻辑的过程。为了最大限度地减少转换耗时并使之实现自助服务,第11章介绍了数据转换服务的实现模式。

训练耗时

与训练机器学习模型的步骤相关联。该指标的现有值取决于编排训练、调整模型参数和对新数据样本进行持续重新训练的过程。为了最大限度地减少训练耗时并使之实现自助服务,第12章介绍了模型训练服务的实现模式。

集成耗时

与在机器学习管道中集成代码、数据和配置变更的步骤相关联。该指标的现有值取决于跟踪机器学习管道的迭代、创建可复制的包,以及验证管道变更的正确性的过程。为了最大限度地减少集成耗时并使之实现自助服务,第13章介绍了机器学习管道持续集成服务的实现模式。

A/B测试耗时

与A/B测试的步骤相关联。该指标的现有值取决于设计在线实验、大规模执行(包括指标分析)和持续优化实验的过程。为了最大限度地减少A/B测试耗时并使之实现自助服务,第14章介绍了作为数据平台一部分的A/B测试服务的实现模式。

优化耗时

与优化查询和大数据处理程序的步骤相关联。该指标的现有值取决于聚合监控统计数据、分析监控数据并根据分析结果调用纠正措施的过程。为了最大限度地减少优化耗时并使之实现自助服务,第15章介绍了查询优化服务的实现模式。

编排耗时

与在生产环境中编排管道的步骤相关联。该指标的现有值取决于设计作业依赖关系、尽可能有效地利用硬件资源,以及监控它们的质量和可用性的过程,特别是对于SLA约束的生产管道。为了最大限度地减少编排耗时并使之实现自助服务,第16章介绍了管道编排服务的实现模式。

部署耗时

与在生产中部署洞察模型的步骤相关联。该指标的现有值取决于以模型终端的形式打包和扩展可用的洞察、监控模型漂移的过程。为了最大限度地减少部署耗时并使之实现自助服务,第17章介绍了模型部署服务的实现模式。

洞察质量耗时

与确保生成的洞察的正确性的步骤相关联。该指标的现有值取决于验证数据准确性、分析异常的数据属性以及主动防止低质量的数据记录污染数据湖的过程。为了最大限度地减少洞察质量耗时并使之实现自助服务,第18章介绍了质量可观测性服务的实现模式。

优化成本耗时

与最小化成本的步骤相关联,特别是在云端运行时。该指标的现有值取决于选择具有成本效益的云服务、配置和运营服务以及持续应用成本优化的过程。为了最大限度地减少优化成本耗时并使之实现自助服务,第19章介绍了成本管理服务的实现模式。

这种分析的最终结果是填充对应于数据平台当前状态的记分卡(见图1-4)。每个指标都是根据与该指标相关的任务能否完成而用颜色编码的,顺序是小时、天或周。需要数周时间的指标通常代表目前使用手工、非标准脚本和程序临时执行的任务,或需要在数据用户和数据平台团队之间协调的任务。这类指标代表企业需要投资的机会,使相关任务成为数据用户的自助服务。

028-01

图1-4:表示企业数据平台当前状态的记分卡

在不同企业中,与每个记分卡指标相关联的复杂性有所不同。例如,在一个只有少量数据集和数据团队成员的初创公司,如果仅仅依靠团队知识,即使这个过程是临时的,搜索耗时和解释耗时也只有几个小时。相反,考虑到可用数据的质量不高,大部分时间可能会花在数据整理或跟踪洞察质量上。此外,企业对数据平台中每个服务的相关要求也不尽相同。例如,一个企业每季度只部署一次离线训练的机器学习模型(而不是在线持续训练),即使需要数周时间,企业可能也不会优先考虑减少训练耗时。