1.2 知识的提取流程

现在我们了解了数据,它可用于描述商业或社会现象,并有助于我们进一步回答有关该现象的问题。为此,我们要尽量确保数据准确或完整、没有错误,否则,基于该数据的推断和理解将不准确或不完整。数据一般有不同类别,包括过往的性能数据、实验数据和基准数据。过往的性能数据和实验数据往往能够自我解释并提供含义,而基准数据是通过比较两种不同物品或产品的特性,以进行标准衡量的数据。将获取的数据转换为信息,进一步处理后,即可用于回答问题,并得到知识。因此,下一步是如何实现信息的提取。

1.2.1 从数据中提取信息

数据往往以多种不同的形式收集和存储,一般而言,这里所说的形式具体取决于数据表达的内容和它的实际意义。例如,篮球比赛的季后赛数据可以通过文本和视频形式来存储。

收集数据时一般需要处理和组织数据,因为收集到的原始数据可能会有不同的结构,甚至还会出现非结构化数据。处理和组织数据至少能提供一种寻找有关数据问题的答案的有组织的方式,如基于篮球运动员总得分进行简单排序,基于城市名称的字母顺序排序。通常,从数据中提取信息的操作也涉及统计建模或计算等。这些从数据到真正重要的信息的提取过程,体现在了数据的查询、访问等操作。当前,随着大数据时代的发展,巨大的数据集往往涉及更加复杂的转换和处理方法,如过滤、聚合、应用相关性、缩放、归一化以及分类等。

1.2.2 从信息中提取知识

一般而言,信息是可量化和可衡量的,信息的访问、生成、存储、分发、搜索、压缩和复制,均可以通过信息量或数量来量化。信息可以转化为知识,知识比信息更加具有确定性。

在一些领域中,知识不断发展,尤其是当数据实时变化的时候。有时,我们可将知识看作数据和信息的组合,往其中添加经验和专家意见以协助决策。知识发展涉及哪些步骤,以及数据如何发生变化,将在本书后续章节进行介绍。

在传统的系统中,信息经过处理、分析后,往往以报告形式呈现。互联网出现以来,现代化社交媒体已经成为一种新的信息提供平台。社交媒体一直在使用外部数据,并通过数据分析提取知识。

例如,用户通过媒体平台发布文章,调查和收集消费者对一些产品品牌的意见,来对消费者情绪进行测量。各种非结构化的分析工具可以提供分析和统计数据,作为消费者情绪的证据,而分析和统计数据的过程,恰恰可让数据可视化发挥重要作用。另一个例子,某媒体平台在2022年举办了一项对电影评分进行预测的比赛,这项比赛的获胜团队在预测用户评分方面实现了对该平台现有方法超过10%的改进,这提高了该媒体平台的商业价值。对知识的理解,意味着找到实际的解决方案,以及实现这些方案需要执行哪些商业步骤等。然而,这一过程的实现往往非常困难。从信息中提取知识并理解这些知识,需要创新的和创造性的思维,以及串连各种知识点的能力。在运用创造性思维的过程中,数据分析和数据可视化发挥了重要作用。