前言

随着计算机技术的发展,数据量呈现爆炸式增长,传统IT技术已经无法满足业务的发展需求,因此云计算与大数据技术应运而生。目前,我国大部分的Web网站、移动应用、视频服务、游戏服务和电子商务平台都在应用云计算或大数据技术,并且云计算和大数据技术正迅速地在制造、金融、交通、医疗健康等各个行业得到广泛应用。随之而来的是广大企业对云计算与大数据人才的需求呈井喷式增长。为了满足社会发展的需求,云计算与大数据技术在高等院校计算机及相关专业的日常教学中逐渐占据重要地位,在计算机相关专业学生的培养计划中也逐步加入了云计算与大数据相关的课程。

本书将云计算与大数据技术整合进行讲解。首先介绍云计算技术,接着是对大数据技术进行概述,使读者对云计算与大数据的体系架构形成全局认识并了解二者之间的关系;在明晰基本理论的前提下,再对具体的虚拟化技术、数据中心、并行计算与集群技术、云存储技术、OpenStack、Hadoop分布式大数据开发平台、Spark大数据计算框架、Storm基于拓扑的流数据实时计算框架、云计算仿真等内容进行具体介绍,并且穿插了相应的实践案例,使读者对云计算与大数据技术在具体实现上有更直观的认识,实现了理论与实践的有机结合。

本书非常适合开设云计算或者大数据技术相关课程的高校作为教材使用,也适合从事云计算与大数据技术相关工作的人员自用。在学习本书的内容之前,需要读者具备一定的计算机体系结构和计算机编程语言的基础。

本书共11章。

第1章是云计算概述,主要介绍云计算的定义、发展背景、基础架构和服务模式,以及云计算的部署模式、典型的云计算产品、云计算技术的新发展、我国的云计算产业现状。

第2章是大数据技术概述,包括大数据技术的产生、大数据的4V特征、大数据的主要应用及行业推动力量、大数据的关键技术、典型的大数据计算架构。

第3章对虚拟化技术做了较为详细的介绍,主要包括了虚拟化技术简介、虚拟化技术原理、常见的虚拟化技术解决方案、常见虚拟化技术的应用实践。

第4章介绍数据中心,主要包括数据中心的基本概念、数据中心的基本单元——服务器、数据中心的选址、数据中心的能耗。

第5章详细讲解了并行计算与集群技术,主要内容有并行计算概述、云计算基础架构——集群、并行计算的分类、并行计算相关技术、并行程序设计实践——MPI编程。

第6章介绍了云存储技术,主要包括云存储概述、云存储与云计算、云存储的应用、云存储技术发展的关注点。

第7章介绍了OpenStack这一功能强大的IaaS平台,主要包括OpenStack架构和关键模块的介绍。

第8章介绍了Hadoop分布式大数据开发平台,包括Hadoop概述、分布式文件系统HDFS、分布式计算框架MapReduce、列式数据库HBase以及Hadoop开发环境的搭建。

第9章主要讲解了基于大规模数据实时处理的Spark内存计算框架,包括Spark概述、Spark运行机制、Spark运行模式、Spark RDD和Spark的生态系统。

第10章详细讲解Storm这一基于拓扑的流数据实时计算框架,包括了Storm简介、Storm原理及其体系结构、Storm-Yarn、搭建Storm开发环境及Storm应用实践。

第11章介绍云计算仿真,介绍了CloudSim云计算仿真系统、CloudSim的模型使用场景、CloudSim的应用实践。

本书由成都信息工程大学安俊秀教授和四川师范大学靳宇倡教授等共同编写。其中第1章、第2章、第5章、第9章由文仁强、安俊秀编写;第3章、第6章由陶武文、安俊秀编写;第4章由薛凯文、靳宇倡编写;第7章由安俊秀编写;第8章由刘明月、靳宇倡编写;第10章由王梓懿、靳宇倡编写;第11章由冯莉骄、靳宇倡编写。文仁强、薛凯文参与了本书的审阅工作。同时,本书的编写和出版还得到了国家自然科学基金项目(71673032)的支持。

尽管在本书的编写过程中,编者力求严谨、准确,但由于技术的发展日新月异,加之编者水平有限,书中难免存在错误和不足之处,敬请广大读者批评指正。如果有任何问题和建议,可发送电子邮件至86631589@qq.com。

编者