前言

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受人们关注。大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业,都融入了大数据的印迹,大数据对人类的社会生产和生活必将产生重大而深远的影响。

大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带。本书将系统梳理、总结大数据相关技术,介绍大数据技术的基本原理和大数据的主要应用,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域“深耕细作”奠定基础、指明方向。在本书的基础上,感兴趣的读者可以通过其他诸如《Hadoop权威指南》等工具书,继续深入学习和实践大数据相关技术。

本书紧紧围绕“构建知识体系,阐明基本原理,引导初级实践,了解相关应用”的指导思想,对大数据知识体系进行系统梳理,做到“有序组织、去粗取精、由浅入深、渐次展开”。本书共分四大部分,包括大数据基础篇、大数据存储篇、大数据处理与分析篇和大数据应用篇。在大数据基础篇中,第1章介绍大数据的基本概念和应用领域,并阐述大数据、云计算和物联网的相互关系;第2章介绍大数据处理架构Hadoop,由于Hadoop已经成为应用最广泛的大数据技术,因此,本书的大数据相关技术主要围绕Hadoop展开,包括Hadoop MapReduce、HDFS和HBase,本章是第3、4、7章的基础。在大数据存储篇中,用4章(第3~6章)的内容介绍了大数据存储相关技术的概念与原理,包括分布式文件系统(HDFS)、分布式数据库(HBase)、NoSQL数据库和云数据库。在大数据处理与分析篇,首先在第7章介绍了大数据处理和分析的核心技术——分布式并行编程模型MapReduce,然后,在第8章和第9章分别介绍了大数据时代两种新兴的数据分析技术——流计算和图计算,最后在第10章简单介绍了可视化技术。在大数据应用篇,用3章(第11章~第13章)内容介绍了大数据在互联网、生物医学和物流等领域的典型应用。

本书面向高校计算机和信息管理等相关专业的学生,可以作为专业必修课或选修课的教材。在教学过程中,建议安排32学时,16个教学周,每周2学时。每章的具体学时分配如下:第1、2、5、6、8、10、11章每章安排2学时;第3、4、9章每章安排4学时;第7章安排6学时;第12、13章这两章内容由学生自学完成。

本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生刘颖杰、叶林宝、蔡珉星、李雨倩、谢荣东、罗道文以及本科生黄梓铭、李粲等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

本书官方网站是http://dblab.xmu.edu.cn/post/bigdata,提供教学PPT和相关资料的下载,并接受错误反馈和发布教材勘误信息。

本书在撰写过程中,参考了大量国内外的教材、专著、论文和资料,对大数据知识进行了系统梳理,有选择地把一些重要知识纳入本书。本书也是笔者多年在数据科学领域从事教学、科研、产业方面工作的系统总结。由于笔者能力有限,本书难免存在不足之处,望广大读者不吝赐教。

林子雨

厦门大学计算机科学系数据库实验室

2015年3月