第5章 数据迁移服务

在开发洞察来解决业务问题的过程中,我们已经讨论了发现现有的数据集及其元数据,以及可用于开发洞察的可重用工件和特征。通常,必须将来自不同数据仓库或应用数据库的数据属性进行聚合以构建洞察。例如,收入仪表盘要求将账单、产品代码和特价产品的属性迁移到一个公共数据存储中,然后对该数据进行查询和写入,每隔几个小时更新仪表盘或实时更新仪表盘。数据用户会花费16%的时间迁移数据(https://oreil.ly/qdbsF)。如今,数据迁移导致了以下痛点:在异构数据源之间协调数据移动、持续验证源数据和目标数据之间的数据正确性以及适应数据源上通常发生的任何模式或配置更改。

确保及时提供不同来源的数据属性是主要难点之一。在获取数据上花费时间会降低生产力,并会影响整体的洞察耗时。理想情况下,迁移数据应该是自助式的,这样数据用户就可以选择一个源、一个目标和一个时间表来迁移数据。此类服务的成功标准是减少数据可用性耗时。