第5章 获取数据

数据是统计和建模的基础。我们先来看看,在常见的几种数据挖掘场景中对数据的获取和操作。

第一种场景:在大数据比赛中,数据往往存储在文件中,其中包括数据文件和资源文件,如文字和图片,对于这种数据就需要把文件下载到本地并用Python读取,其中涉及读取不同的文件格式、字符集以及基本的图片操作。

第二种场景:他人提供的数据。这种数据一般是以数据库、数据仓库以及Web接口的方式提供的,而接口中的数据组织一般又以XML和Json(JavaScript Object Notation,JS对象简谱)格式为主,因此其中涉及数据库的读取、访问网络服务,以及解析XML和Json格式的数据。

第三种场景:自定义问题,然后从各种信息渠道获取数据,其中最主要的渠道是用爬虫抓取网络数据。这些数据一般以网页的形式存储,下载之后,还需要考虑对其内容进行解析和取舍,以及大量数据在本地以何种方式存储。这涉及爬虫、解析HTML格式的数据以及存储工具的选择。

此外,还需要考虑数据的处理过程和结果数据的存储方式,如训练好的模型以何种方式存储、在集群中的多台机器和多种服务如何共享存储,以及实时或定时抓取数据。