1.1 理解数据的层次及分析的价值

不同时代、不同场景,对数据的理解大不相同。在电子计算机发明之前,数据主要指以数字符号(Number)为主的定量记录,比如商铺的会计账本、政府的财政支出等,存储形式是纸质的。而在电子计算机发明并普及之后,数据泛指一切可以电子化记录的信息(Information),如销售记录、会议纪要等结构化及非结构化数据。

狭义的数据以数字为中心,广义的数据以电子化信息为中心。

从分析的角度出发,还要理解数据的多种表现形式,可以以“价值密度”或“知识密度”来区分数据的抽象化层次。比如,上市公司的年度摘要和小学生手中的算术题目,它们之间的知识密度截然不同。知识密度更高的数据形式是从更多的低层次数据中抽象而来的。

基于这样的理解,可以把数据分为4个逻辑层次,构成“数据金字塔模型”,又被称为“DIKW数据模型”,如图1-1所示。这里以“某汽车品牌的新能源汽车销售”为主题,呈现了不同层次的数据。

图1-1 数据金字塔模型(数据来自公开网络)

· 数据(Data):数据是理解事实的符号,比如文字、数字、单位,甚至形状、颜色等。

数据是构成数字世界的“细胞”,但在未被逻辑处理之前,数据难言应用价值,不经分析的数据如同不经反省的人生、未经开采的石油,存在却缺乏意义。从这个角度看,仅仅拥有了数据,看似拥有一切,可能所知甚少,此为know-nothing(无所知)。

· 信息(Information):信息是有逻辑的数据组合,如同语言是文字的艺术。

从数据到信息的数据准备过程,对应数据处理、数据合并等内容,是数据应用中特别耗费时间的基础性工作。世界存在于关系之中,信息反映了数据之间的逻辑关系,揭示了存在的真相,因此了解信息就是know-what(知其然)。

· 知识(Knowledge):知识是在数据、信息中增加了主观理解,并进一步升华的数据见解。

与信息不同,知识是可以直接指导业务决策和行动的,借助行动产生价值,故称为know-how(知行合一)。知识是数据分析过程的关键输出,其中融入了大量的主观理解。

· 智慧(Wisdom):智慧是在大数据分析和经验的基础上,对信息、知识的进一步萃取和抽象,是将数据转化为价值创造的指引,也是AI(人工智能)努力但又难以超越的领域。

在分析实践中,与智慧对等的词汇有“洞见”或者“洞察”,代表透过表象看本质,这与英文insight(洞见)两个词根的组合有异曲同工之妙(in-sight)。

既然是透过表象看本质,到了这一层,就融合了决策者的深层理解和经验性的洞见,透析数据,不仅知其然,更知其所以然,此乃妙理,即know-why(知其所以然)。每个公司都有少数管理者和业务领导可以通过关键的数据线索判断行业大势,见微知著,预判未来。所有的智慧和洞见背后,是更加抽象和前瞻性的数据逻辑和知识体系。

随着计算机算力的大幅提高、计算机编程的日益进化,AI开始兴起,在一些特殊领域,计算机辅助决策正在向“计算机智能决策”迈进,比如自动驾驶汽车、电商智能推荐、机器人围棋等。商业智能与智慧的结合,催生了智能商业这一新兴业态,重塑了很多传统行业的生态系统。

理解了数据的层次,就可以理解数据分析的过程。从广义角度来看,数据分析包括数据准备(从数据到信息)、数据归纳分析(从信息到知识)、在探索分析中增进业务理解(从知识到智慧)等多个环节;从狭义角度来看,数据分析主要指以交叉表或可视化图形的方式直观、简洁地从信息中总结规律、指导行动的过程。

在企业的业务实践中,根据数据分析中的经验成分,笔者逐渐把企业数据分析应用分为报表展现、业务分析(敏捷BI)、商业分析(智能商业)3个典型阶段。报表展现强调数据的归纳总结,业务分析强调交互探索及其和业务决策的结合,商业分析则侧重市场、竞争格局、商业模式等战略要素分析。

本书的重点是使用Tableau、SQL等敏捷工具介绍大数据业务分析的方法论和实现方法,当然也兼容第一阶段,同时又是第三阶段的能力准备。