spark分布式计算原理伪分布式的spark/mapreduce是只供用来学习的吗？

2021-03-11

2747

伪分布式的spark/mapreduce是只供用来学习的吗？首先，MapReduce出现得更早。介绍了分布式大数据处理的基本思想。现在我在学习火花。Matei zaharia的毕业论文，即spark的

伪分布式的spark/mapreduce是只供用来学习的吗？

首先，MapReduce出现得更早。介绍了分布式大数据处理的基本思想。现在我在学习火花。Matei zaharia的毕业论文，即spark的介绍论文，已在CSDN上翻译成中文。

建议先学习MapReduce，主要是了解任务是如何执行的。都在网上。然后，spark学习应该关注于理解spark-to-SQL语句的执行机制。

不同的分布式框架有各自的优势和不同的业务场景。MapReduce可以更好地处理大量ETL服务，而spark则相对更侧重于机器学习。对于企业来说，如果这些业务能够在同一个集群上运行，就可以有效地降低成本。为了让不同的框架同时在同一个集群中运行，最重要的问题是如何分配资源。当没有纱线时，一个相对简单的方法是假设集群中有100台机器。我们将50台机器分配给spark，将其他50台机器分配给MapReduce。这似乎没什么问题。不过，如果我们每天只运行一个小时的MapReduce，其余大部分时间都在运行spark，那么一天就有23个小时，50台机器处于空闲状态，而spark的机器很可能有大量作业在队列中。这显然不是一种非常有效的使用集群的方法。

在hadoop和spark之间如何取舍？

一般来说，会用到主流行业的大数据技术Hadoop和spark。学习时，两个系统都会学习，先学习Hadoop，再学习spark。

Apache开源组织的分布式基础设施提供了分布式文件系统（HDFS）、分布式计算（MapReduce）和统一资源管理框架（yarn）的软件体系结构。用户可以在不了解分布式系统的基本细节的情况下开发分布式程序。

为大规模数据处理设计的快速通用计算引擎。用于构建大型、低延迟的数据分析应用程序。它可以用来完成各种操作，包括SQL查询、文本处理、机器学习等。

https://www.toutiao.com/i654015696262573648397/

伪分布式的spark/mapreduce是只供用来学习的吗？

在hadoop和spark之间如何取舍？

相关推荐