- 大数据技术原理与应用(第2版)
- 林子雨编著
- 291字
- 2020-06-24 22:30:29
第3章 分布式文件系统HDFS
大数据时代必须解决海量数据的高效存储问题,为此,谷歌开发了分布式文件系统(Google File System,GFS),通过网络实现文件在多台机器上的分布式存储,较好地满足了大规模数据存储的需求。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现,它是 Hadoop 两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HDFS 具有很好的容错能力,并且兼容廉价的硬件设备,因此可以以较低的成本利用现有机器实现大流量和大数据量的读写。
本章首先介绍分布式文件系统的基本概念、结构和设计需求,然后介绍HDFS,详细阐述它的重要概念、体系结构、存储原理和读写过程,最后介绍了一些HDFS编程实践方面的知识。