Hadoop Distributed File System(HDFS)是一个运行在商用硬件平台上的分布式文件系统;DFS在廉价硬件平台上提供高可靠的文件服务,提供数据访问的高吞吐量,适合那些运行在大数据集上的应用。HDFS并不完全符合POSIX文件系统方面的标准,这是因为HDFS运行环境和POSIX filesystem适用的环境是不同。HDFS支持对文件系统数据的流式访问。
1HDFS的特性:
1检测失败,迅速回复(核心目标)2以数据流的方式访问数据集(访问)3大数据存储,将文件分散到集群的数千节点,多大数据宽带,优化大数据(存储)4一次写入多次读取的模式;并提供两种性能:hflush以及append;hflush保持数据的一致性与持久性;append对提供重新打开已关闭的问题并添加额外的数据(数据的完整与稳定)5就近计算原则,减少网络消耗与吞吐量,并提高计算效率(计算原则)6易移植
本文主要是看这篇文章归纳而来:http://blog.csdn.net/kickxxx/article/details/8242093