译者序

我从事大数据开发工作已有10余年,如果以工程视角从底层数据接入到上层数据应用来看,我过往的工作内容涵盖了数据接入、离线/实时数据仓库建设、数据ETL、数据挖掘(个性推荐、风控方向)、数据分析、数据可视化等完整数据链路的开发,并得以实践落地,促使公司业务高效开展。其间多次燃起过把这些心得和经验落成文字的念头,也尝试过多次对外技术分享,但这些技术分享都是从细分层面或者工程技术实践来展开讲解的,一直没能找到一条主线把这些内容串起来,所以这个念头迟迟没有落地。

直到好友万学凡突然问我是否有兴趣翻译一本有关大数据实践方面的书(即本书),在了解大概内容后,我与擅长数据分析、数据运营、专业翻译的好友熊畅和王晓倩一起接下了本书的翻译工作。经过近半年的翻译和校对,我们终于完成了本书的翻译。

本书作者担任Unravel Data Systems的工程副总裁兼首席数据官,在构建企业数据产品、商业分析与机器学习应用方面有近20年的经验。本书基于“洞察耗时”记分卡方法展开,也就是说,为数据平台的当前状态定义记分卡,从源数据到洞察的过程包括发现、准备、构建、实施这四个关键步骤,对这四个关键步骤中各个环节的耗时进行度量,最后列出完整的路线积分卡,并从中识别洞察过程中的痛点,优化这些痛点,实现每个指标的自助服务,最终达到洞察提效的目的。书中每一章都专注于一个指标,并涵盖自动化水平不断提高的模式。书中没有推荐太多当前流行的技术组件或者很快会过时的特定技术,而是关注实现模式,提供了一些现有技术最佳实践的案例。

本书极具指导价值,致力于把数据用户和数据工程师的观点结合在一起,读后必大有所获。

我与本书的另两位译者熊畅和王晓倩一起克服了日常工作的压力,同心协力完成了本书的翻译工作。

感谢我们的家人,他们的理解和支持使我们得以心无旁骛地翻译本书。同时感谢机械工业出版社华章分社的编辑李忠明,他的耐心解答让我们在翻译过程中少走了很多弯路,也感谢负责本书审校工作的编辑们,他们极大地提高了本书的质量。

吴瑞诚
2021年12月于武汉