1.3 建立数据自助服务路线图

如上一节所述,建立数据自助服务路线图的第一步是定义数据平台当前状态的记分卡。记分卡有助于筛选出目前减缓从原始数据到洞察提取这一过程的指标。记分卡中的每个指标都可以处于不同的自助服务级别,并根据其减缓整体洞察时间的程度,在路线图中优先考虑自动化。

如前所述,每一章都涵盖使相应的指标实现自助服务的设计模式。我们将自助服务视为具有多个级别,类似于自动驾驶汽车的不同级别,这些汽车在操作时所需的人工干预程度不同(如图1-5所示)。例如,2级自动驾驶汽车在驾驶员的监督下自动加速、转向和刹车,而5级自动驾驶汽车则是完全自动化的,不需要人为监督。

029-01

图1-5:自动驾驶汽车的不同自动化程度(引用自DZone(https://oreil.ly/j6e6P))

企业需要系统地规划路线图,以提高每个入围指标的自动化水平。每一章中的设计模式的组织方式类似于马斯洛的需求层次结构(https://oreil.ly/74Rab):金字塔的底层表示要实现的起始模式,上面还有两个层次,每个层次都是在前一个层次的基础上发展起来的。如图1-6所示,整个金字塔代表自助服务。

030-01

图1-6:每一章都遵循马斯洛的需求层次结构

本书基于在多个企业中实现自助服务数据平台的经验,建议读者使用以下方法来执行自助服务路线图:

1. 定义当前的记分卡。

2. 根据对数据用户的调查,找出两个或三个最显著地减缓提取洞察过程的指标,并对当前任务的实现方式进行技术分析。注意,根据每个企业当前的流程、数据用户技能、技术组件、数据属性和用例要求,这些指标的重要性会各不相同。

3. 对于每一个指标,先从马斯洛的需求层次结构开始实施。每一章专门讨论一个指标,并涵盖自动化程度不断提高的模式。本书没有推荐那些在快节奏的大数据演进中很快就会过时的特定技术,而是侧重于实现模式,并提供了现有技术在本地以及云端的示例。

4. 遵循“爬-走-跑”的分阶段策略,重点是每个季度将入围指标翻倍,并使它们实现自助服务。

本书试图把数据用户和数据平台工程师的观点结合起来。就需求达成共识对于制定务实的路线图至关重要——在给定的时间框架和可用资源范围内什么是可能的,什么是可行的。