1.1 理解数据、信息和知识

1-1 理解数据、信息和知识

在统计学等领域中,数据、信息和知识这些专业术语经常被使用。通常,这些术语有很多定义,偶尔会出现不一致甚至相矛盾的含义。数据分析的主要目标是了解数据或信息背后隐藏的知识以及更深入的逻辑或普遍规律。本书中的数据、知识等概念,均是在统计学或计算机科学背景下的概念,而非其他如心理学或认知科学中的概念。

1.1.1 数据和信息

数据是得出结论的前提。一般而言,数据和信息在一定的上下文中往往是相互关联的。数据实际上是指离散的数字形式的客观事实。以不同的方式组织和安排后,数据往往可以呈现出一些有助于解答公司业务问题的信息。

有时,数据看起来非常简单,但可能数量庞大且无组织。这种离散的数据往往不能直接用来做决定或决策,因为这样往往没有太多意义。更重要的是,离散的数据之间没有结构或关系。收集、传输和存储数据的过程因数据类型和存储方法而异,因此数据也经常有多种形式。常见的数据存储形式如下:

(1)CSV文件;

(2)数据库表单;

(3)文档文件(Excel、PDF、Word等格式文件);

(4)HTML文件;

(5)JSON文件;

(6)TXT文本文件;

(7)XML文件。

在数据的基础上,如果额外添加一些关系或关联,我们就能得到信息。通常来说,这些关联是通过为数据提供上下文或行业背景来实现的。这些行业背景很有帮助,它允许我们在一定范围内回答有关数据的问题。例如,我们有一些篮球运动员的数据,包括身高、体重、位置、大学、出生日期、选秀权、选秀轮、首秀,以及招聘等级等。谁是第一个身高超过195cm的控球后卫?答案就在运动员的数据中。同样,每位运动员的场均得分也是数据,而基于此数据,“谁今年场均得分最高?他的得分是多少?”对应的答案是“易建联,场均23.2分”,这就是信息。

1.1.2 知识

当我们开始解释和组织信息并进行使用时,知识就会随之产生,以推动决策。知识是基于获得的数据和信息的汇总。当有了汇总和提取而来的知识时,我们就能做出适当的决策并执行,即进行预测或判断。

知识总量的增长有多种方式,当现有数据被重新排列或重组时,或当现有算法发生变化时,知识也在增加。一个形象的比喻是,知识就像一个箭头,指向依赖于过去的数据和信息的某些算法的结果。

在许多情况下,知识也可以通过同数据和信息的交互得到。而对知识的理解,也尤为重要。近年来,随着数据量的爆炸式增长,各行各业一直在努力理解现已拥有的所有数据和信息;大家都意识到数据分析的重要性。数据分析可以帮助我们得到最佳或现实的基于现有数据和信息的业务决策。

数据分析依赖于数学算法,这些算法往往用来说明数据之间的关系和知识。当数据没有特定结构时,我们可以将数据转换为结构化形式,并使其更贴近业务目标。数据分析和商业智能往往被一起谈论,但需要注意的是,分析工作一般具有预测能力,而商业智能提供对历史数据的分析结果。

通常而言,数据分析适用于更广泛的数据作业,因此,数据协同目前在业务决策部门内部或外部尤为常见。在某些业务范式中,数据协同仅在内部进行广泛的数据集的集合,但在大多数其他情况下,外部数据协同有助于连接各个层面的知识。两种常见的外部数据协同的来源是社交媒体和消费者群。在后面的章节,我们会参考一些在现实生活中取得一些成就的商业故事和应用实例,通过分析数据来获得知识和推动业务,改进决策,更好地了解客户。