发布时间: 2022-03-09 14:35:54
将Hadoop称作框架其实并不准确,更多人喜欢称Hadoop为生态圈,因为它除了有计算和存储功能外还提供了相当多的组件,来完成大数据方方面面的工作。
Hadoop生态圈的组件非常多,图1所示为Hadoop 1.0环境中的生态圈组成,爬虫工具、集群化存储、工作流、数据流、交互式脚本、NoSQL数据库、数据仓库、数据挖掘框架,几乎是应有尽有。
图1 Hadoop生态圈
现在在生产环境中,通常使用Hadoop 2.0环境。通常说的Hadoop只是其中最核心的框架,主要分为以下4个部分。
(1)Hadoop Common:这是Hadoop的核心功能,是对其他的Hadoop模块做支撑的,里面包含了大量的对底层文件、网络的访问,对数据类型的支持,以及对象的序列化、反序列化的操作支持等。
(2)Hadoop Distributed File System(HDFSTM):Hadoop分布式文件系统,也就是上面提到的HDFS,它用于存储大量的数据。
(3)Hadoop YARN:一个任务调度和资源管理的框架。
(4)Hadoop MapReduce:基于YARN的并行大数据处理组件。请注意Hadoop 1.0和Hadoop 2.0的区别,如图2所示。Hadoop 1.0环境的MapReduce是直接运行的,Hadoop 2.0环境的MapReduce依赖于YARN框架,在YARN框架启动后,MapReduce在需要运行的时候把任务提交给YARN框架,让YARN框架来分配资源择机运行,这是两者较大的区别。
图2 Hadoop 1.0和Hadoop 2.0
一般把Hadoop Common、HDFS、YARN、MapReduce这四部分统称为Hadoop框架,而在Hadoop生态环境中还有进行SQL化管理HDFS的Hive组件,支持OLTP业务的NoSQL分布式数据库HBase组件,进行图形界面管理的Ambari组件等,Hadoop生态圈会增加越来越多的软件,提高软件的便利性。
上一篇: MapReduce原理
下一篇: linux文件与目录基本命令