3.1 路线图

查找数据集和工件的需求是数据科学家路线图的起点。本节讨论搜索服务中的关键场景。

3.1.1 确定业务问题的可行性

给定一个业务问题,发现阶段的第一步是确定有关数据集可用性的可行性。数据集可以处于以下一种可用性状态:

  • 数据不存在,需要对应用程序进行检查。
  • 源系统中有可用的数据,但没有聚合到数据湖中。
  • 数据是可用的,并且已经被其他工件使用。

可行性分析能在项目初期评估所需的洞察耗时,对做好项目规划至关重要。在数据可用性方面发现的差距会被纳入数据收集阶段的需求。

3.1.2 为数据准备选择相关数据集

这是搜索服务的一个关键场景,其目标是筛选出一个或多个用于整个路线图下一阶段的数据集。为数据准备选择相关数据集是一个迭代的过程,包括使用关键词搜索数据集、对搜索结果进行抽样,以及选择对数据属性的含义和沿袭进行更深层次的分析。有了经过整理的高质量数据,这个场景更容易完成。通常,业务定义和描述没有更新,使得识别合适的数据集变得很困难。一个常见的场景是存在多个事实来源,一个给定的数据集可能存在于一个或多个具有不同意义的数据孤岛中。如果现有的工件已经在使用该数据集,则这就是数据集质量较高的一个体现。

3.1.3 重用现有的工件进行原型开发

这个阶段的目标不是从头开始,而是找到任何可以重用的构建模块。这些模块可能包括数据管道、仪表盘、模型、查询等。一些常见的场景通常会出现:

  • 一个单一地理位置的仪表盘已经存在,可以通过参数化地理位置和其他输入来重用。
  • 可以利用已固化的数据管道生成的标准化业务指标。
  • 可以重用在notebook中共享的探索性查询。