- 数据自助服务实践指南:数据开放与洞察提效
- (美)桑迪普·乌坦坎达尼
- 877字
- 2022-05-20 19:18:46
2.1 路线图
解释数据集的需求是数据科学家探索的起点。以下是元数据目录服务路线图中的主要日常场景。
2.1.1 理解数据集
作为构建新模型、检测新指标或进行即席分析的第一步,数据科学家需要理解数据的来源、使用方式、持久化方式等细节。通过理解数据细节,他们可以在开发洞察时做出明智的决策,筛选出正确的数据集做进一步分析。理解数据主要包括以下几个方面:
- 数据在逻辑上代表什么?属性的含义是什么?这些数据的事实来源是什么?
- 数据的所有者是谁?哪些人是主要数据用户?
- 使用什么查询引擎来访问数据?数据集是否支持版本化?
- 数据存储在哪里?数据副本存储在哪里,并且数据格式是什么样的?
- 这些数据的物理格式是什么,是否能被读取?
- 这些数据的最后修改时间是什么时候?是否分层存储?数据的历史版本存储在何地?是否能相信这些数据?
- 是否有相似的数据集(无论是整体数据集还是个别列,都有相似或相同的内容)?
元数据目录成为这些问题的唯一事实来源。
在部署一个模型或仪表盘时,需要主动监控相关的数据集问题,因为它们会影响洞察的正确性和可用性。元数据目录还存储数据集的运行健康状况,并用于对数据集模式的任何更改或已发现的任何其他团队已经使用过的错误进行影响分析。这些信息可以帮助快速调试数据管道中的中断环节,还可以对降低数据可用性而违反SLA的事件、在部署后出现数据质量问题以及其他操作问题进行告警。
2.1.2 分析数据集
有许多查询引擎可以用来分析数据集。数据科学家可以根据数据集的属性和查询类型,使用合适的工具来分析数据集。单个数据集可以使用多个查询引擎来交叉读取,如Pig、Spark、Presto、Hive等。例如,一个Pig脚本从Hive读取数据时,需要用Pig的方式来读取Hive列类型的表。同样,处理过程中可能需要将数据跨数据仓库迁移,在这个过程中,目的数据存储中的表使用目的表的数据类型。为了支持使用多个查询处理框架,需要将规范数据类型映射到各自的数据存储和查询引擎类型。
2.1.3 知识扩展
当数据科学家在项目中使用不同的数据集时,会发现有关业务词汇、数据质量等额外的细节,这些学习被称为团队知识。团队知识目标是通过丰富数据集的元数据目录细节,在数据用户之间积极分享团队知识。