第2章 大数据处理架构Hadoop

Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能,在业内得到了广泛的应用,同时也成为大数据的代名词。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的存储与处理分析。

本章介绍了Hadoop的发展历史、重要特性和应用现状,并详细介绍了Hadoop生态系统及其各个组件,最后,演示了如何在Linux操作系统下安装和配置Hadoop。