hdfs的两个核心服务是什么大数据的框架主要学习和使用什么呢？

浏览量：3722 时间：2023-03-30 15:01:07 作者：采采

大数据的框架主要学习和使用什么呢？

什么是大数据？大数据，IT行业术语，指的是可以传统的软件工具在一定的时间范围内是无法捕捉、管理和处理的。它是一种海量、高增长、多元化的信息资产，需要一种新的处理模式来拥有更强的决策力、洞察和发现能力以及流程优化能力。

Victor Mayer-schoenberg和Kenneth Cook《大数据时代》大数据是指所有数据都用于分析和处理，而没有随机分析(抽样调查)的捷径。大数据的5V特征(IBM提出):体量(海量)、速度(高速)、多样性(多样性)、价值(低价值密度)、真实性。

大数据开发的学习路线:

第一阶段:Hadoop生态架构技术

1.语言基础

Java:在Java虚拟机中理解和练习内存管理、多线程、线程池、设计模式、并行化就够了，不需要很深的掌握。

Linux:系统安装，基本命令，网络配置，Vim编辑器，进程管理，Shell脚本，虚拟机的菜单熟悉度等等。

Python:基本语法、数据结构、函数、条件判断、循环等基础知识。

2.环境准备

本文介绍了如何建立一个完全分布式的windows计算机，有1个主机和2个从机。

VMware虚拟机，Linux系统(Centos6.5)，Hadoop安装包，Hadoop全分布式集群环境都在这里准备好了。

3、MapReduce

MapReduce分布式离线计算框架是Hadoop的核心编程模型。

4、HDFS1.0/2.0

HDFS可以提供高吞吐量的数据访问，适合大规模数据集上的应用。

5、纱线(Hadoop2.0)

Yarn是一个资源调度平台，主要负责给任务分配资源。

6、蜂巢

Hive是一个数据仓库，所有数据都存储在HDFS上。Hive主要用来写Hql。

7、火花

Spark是专门为大规模数据处理设计的快速通用计算引擎。

8、火花放电

Spark Streaming是一个实时处理框架，数据是批量处理的。

9、火花屋

Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交给Spark集群进行计算，可以提高Hive查询的性能。

10、风暴

Storm是一个实时计算框架。Storm实时处理每一条添加的数据，一条一条，可以保证数据处理的及时性。

动物园管理员

佐基Per是许多大数据框架的基础，也是集群的管理者。

12、Hbase

Hbase是一个Nosql数据库，它是高度可靠的、面向列的、可伸缩的和分布式的。

13、卡夫卡

Kafka是一个消息中间件，作为中间缓冲层。

14、水槽

Flume常见的是从应用程序生成的日志文件中收集数据，一般有两个过程。

一种是Flume采集的数据存储在Kafka中，便于Storm或SparkStreaming实时处理。

另一个过程是将Flume收集的数据存储在HDFS上进行离线处理，以便以后使用hadoop或spark。

第二阶段:数据挖掘算法

1.中文分词

开源叙词表的离线和在线应用

2.自然语言处理

文本相关算法

3.推荐算法

基于CB，CF，归一化方法，Mahout应用。

4.分类算法

NB、SVM

5.回归算法

LR、决策树

6.聚类算法

分层聚类，k均值

7.神经网络和深度学习

神经网络、张量流

以上是学习Hadoop开发的详细路线。如果需要了解具体框架的开发技术，可以咨询Gamigu的大数据老师了解更多。

学习大数据开发需要掌握哪些技术？

(1)Java语言基础

Java开发入门，熟悉Eclipse开发工具，Java语言基础，Java进程控制，Java字符串，Java数组和类和对象，数字处理类和核心技术，I/O和反射，多线程，Swing程序和集合类。

(2)HTML、CSS和Java

PC端网站布局，html5cs3基础，WebApp页面布局，原生Java交互功能开发，Ajax异步交互，jQuery应用。

(3)JavaWeb和数据库

数据库，JavaWeb开发核心，JavaWeb开发内幕

LinuxampHadoop生态系统

Linux系统，Hadoop离线计算大纲，分布式数据库Hbase，数据仓库Hive，数据迁移工具Sqoop，Flume分布式日志框架。

分布式计算框架和SparkampStrom生态系统

(1)分布式计算框架

Python编程语言、Scala编程语言、Spark大数据处理、Spark—流式大数据处理、Spark—Mlib机器学习、Spark—GraphX图计算、实战1:基于Spark的推荐系统(某一线公司的真实项目)、实战2:新浪。com()。

(2)2)暴风科技架构体系的原理和基础，消息队列kaf。Ka、R

简述hadoop2.0的四个核心组件及其功能？

Hadoop基本概念

Hadoop生态系统是一个庞大的、功能齐全的生态系统，但它仍然被一个叫做Hadoop的分布式系统基础设施所包围。它的核心组件由四部分组成，即:通用、HDFS、MapReduce和YARN。

Common是Hadoop架构的常用组件；

HDFS是Hadoop的分布式文件存储系统。

MapReduce是Hadoop提供的编程模型，可用于大规模数据集的并行操作。

YARN是Hadoop架构升级后广泛使用的资源管理器。

数据 Hadoop 框架基础大数据

上一篇把excel表格中的图片显示出来怎样把Excel表格里面的图片保存到电脑？

下一篇如何正确清理手机上的脏东西你们的手机有什么绝对不卸载的软件？

hdfs的两个核心服务是什么大数据的框架主要学习和使用什么呢？

大数据的框架主要学习和使用什么呢？

简述hadoop2.0的四个核心组件及其功能？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序

hdfs的两个核心服务是什么 大数据的框架主要学习和使用什么呢？

大数据的框架主要学习和使用什么呢？

简述hadoop2.0的四个核心组件及其功能？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序

hdfs的两个核心服务是什么大数据的框架主要学习和使用什么呢？