2.1.2 数据层:数据管理与数据仓库

在企业的数据分析体系中,数据是承上启下的关键,一方面存储、整理来自运营过程的数据,另一方面为分析提供数据模型、数据管理、数据服务。相比业务流程和分析体系,数据层也是最需要技术的部分,传统上一直属于IT人员的领地。随着敏捷分析技术、低代码技术等的发展,与分析紧密结合的部分工作也在向业务部门扩展。

就笔者目前的项目经验和认知,数据层中主要包括如下几个主题。

· 来自数据库或本地数据的数据底表(Base Table)。

· 通过数据合并技术构建的数据宽表(Wide Table)。

· 根据业务需要预先构建的数据模型(Data Model)。

在不同的工具中,数据表的形式有较大的差异,比如,SQL中的表(Table)、视图(View)、物化视图(Materialized View)等概念,Tableau中的单表连接(Connection)、多表连接(Join)、多表关系(Relationship)、多表临时混合(Blend)等,都需要熟练掌握工具及其对应的技术逻辑。

本书第4章会详细介绍相关内容。

在企业数字化转型和可视化分析的过程中,数据层是普遍制约性要素。究其原因,其一是负责数据的信息部门通常难以理解敏捷分析的业务逻辑,无法快速响应业务的灵活需求;其二是缺乏宏观的数据规划,导致数据的一致性、准确性、安全性和性能随着业务扩展快速下降,最终制约了业务分析。企业应在数据方面加强跨部门合作和沟通,稳定、强大的数据底座是大数据分析的坚定基石,脆弱的基础则可以轻易葬送敏捷分析的未来。

从广义的角度看,甚至可以把可视化展现视为数据层的一部分。可视化的背后是交叉表(Cross Table),它来自数据表的聚合和计算。鉴于可视化分析属于业务部门的职责,可以独立于数据仓库而存在,因此本书把BI和数据独立介绍,这不影响二者的整体性。

在Kimball的相关知识体系中,数据仓库是和BI是作为整体阐述的——书中简称为DW/BI(见本章参考资料[3])。在本书第11章简要介绍数据管理、数据仓库之后,笔者会旗帜鲜明地强调如下的建议:

视Tableau为数据仓库/商业智能平台(DW/BI Platform)。