2016 - 2024

感恩一路有你

hadoop是什么(hadoop是一种什么技术?)

浏览量:3414 时间:2022-12-28 16:18:36 作者:采采

hadoop是什么(hadoop是一种什么技术?)

Hadoop是什么?

Hadoop是由Apache基金会开发的分布式系统基础设施。用户可以开发分布式程序,而不需要了解分布式的底层细节。充分利用集群的力量进行高速计算和存储。

Hadoop框架的核心设计是HDFS和MapReduce。HDFS为海量数据提供存储,MapReduce为海量数据提供计算。

hadoop到底是什么?

Hadoop细分为两个部分,一个是HDFS,这是一个分布式文件系统,包含NameNode和DataNode,用于存储pb级的数据。它的特点是体积大,可以部署到前台和前台的数万台机器上进行存储。另一部分是MapReduce,是一个离线数据分析的计算框架,Rarn是一个资源管理类和任务调度器,用于管理和调度程序,包括但不限于MapReduce,也可以运行Spark等。

下面是生态系统。hadoop生态系统还包括spark、flume、hbase、kakfa等等。

hadoop是一种什么技术?

Hadoop是一个软件框架,可以分布式处理大量数据。用户可以在Hadoop上轻松开发和运行处理海量数据的应用,充分利用集群的力量进行高速计算和存储。

如何使用Hadoop:

构建Hadoop集群

简单来说,把Hadoop安装包放在每台服务器上,更改配置后重新启动,Hadoop集群就搭建好了。

将文件上传到Hadoop集群

Hadoop集群设置完成后,可以通过网页查看集群的情况,通过Hadoop命令上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。

编写map/reduce程序

通过集成开发工具(如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序扔到集群上的jar包中执行。运行后,得到了计算结果。

hadoop生态系统中每个组件的角色描述:

hdfs:可以存储海量数据的文件系统。

mapreduce:通过一定的算法从海量数据中计算出有用的信息。

hive:是sql语句解释器,接收用户输入的sql语句,然后将sql语句翻译成复杂的mapreduce程序,发布到mr集群运行,从而计算出有用的信息。

hbase:基于hdfs文件系统的数据库。

flume:就是把一个文件中的数据提取到另一个文件中。

sqoop:将hdfs文件系统的文件导出到linux文件系统的文件。

ooize/azkaban:该组件负责协调各种任务的执行顺序。

Hadoop 数据 程序 : 文件

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。