第3章 分布式文件系统HDFS

大数据时代必须解决海量数据的高效存储问题,为此,Google开发了分布式文件系统(Google File System,GFS),通过网络实现文件在多台机器上的分布式存储,较好地满足了大规模数据存储的需求。Hadoop分布式文件系统HDFS是针对GFS的开源实现,它是Hadoop两大核心部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HDFS具有很好的容错能力,并且兼容廉价的硬件设备,因此,可以以较低的成本,利用现有机器实现大流量和大数据量的读写工作。

本章首先介绍分布式文件系统的基本概念、结构和设计需求,然后介绍HDFS,详细阐述它的重要概念、体系结构、存储原理和读写过程,最后介绍一些HDFS编程实践方面的知识。