产品架构

最近更新时间: 2021-09-15 16:14:32

托管HADOOP对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:
HDFS
Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
Mapreduce
提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。
Yarn
资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。
Hive
建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。
HBase
提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。
Kafka
一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。
Spark
基于内存进行计算的分布式计算框架。