前言(第1版)

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受人们关注。大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业,都融入了大数据的印迹,大数据对人类的社会生产和生活必将产生重大而深远的影响。

大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带。本书将系统梳理、总结大数据相关技术,介绍大数据技术的基本原理和大数据的主要应用,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域“深耕细作”奠定基础、指明方向。在本书的基础上,感兴趣的读者可以通过其他诸如《Hadoop权威指南》等工具书,继续深入学习和实践大数据相关技术。

本书紧紧围绕“构建知识体系,阐明基本原理,引导初级实践,了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。本书共分四大部分,包括大数据基础篇、大数据存储篇、大数据处理与分析篇和大数据应用篇。在大数据基础篇中,第1章介绍大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系;第2章介绍大数据处理架构Hadoop,由于Hadoop已经成为应用最广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase,本章是第3、4、7章的基础。在大数据存储篇中,用4章(第3~6章)的内容介绍了大数据存储相关技术的概念与原理,包括分布式文件系统(HDFS)、分布式数据库(HBase)、NoSQL数据库和云数据库。在大数据处理与分析篇,首先在第7章介绍了大数据处理和分析的核心技术——分布式并行编程模型MapReduce,然后,在第8章和第9章分别介绍了大数据时代两种新兴的数据分析技术——流计算和图计算,最后在第10章简单介绍了可视化技术。在大数据应用篇,用3章(第11章~第13章)内容介绍了大数据在互联网、生物医学领域和其他行业的典型应用。

本书面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的教材。在教学过程中,建议安排32学时,16个教学周,每周2学时。每章的具体学时分配如下:第1、2、5、6、8、10、11章每章安排2学时;第3、4、9章每章安排4学时;第7章安排6学时;第12、13章这两章内容由学生自学完成。

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生刘颖杰、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文以及本科生黄梓铭、李粲等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

本书官方网站是http://dblab.xmu.edu.cn/post/bigdata,提供教学PPT和相关资料的下载,并接受错误反馈和发布教材勘误信息。厦门大学数据库实验室为本教材配套建设了国内高校首个大数据课程公共服务平台(http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),为教师教学和学生学习大数据课程提供讲义PPT、学习指南、备课指南、上机习题、技术资料、授课视频等全方位、一站式免费服务。

本书在撰写过程中,参考了大量国内外的教材、专著、论文和资料,对大数据知识进行了系统梳理,有选择地把一些重要知识纳入本书。本书也是笔者多年在数据科学领域从事教学、科研、产业方面工作的系统总结。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。

林子雨

厦门大学计算机科学系数据库实验室

2015年3月