安装spark必须安装hadoop吗 spark软件是哪家公司的？

浏览量：4925 时间：2023-06-28 21:51:45 作者：采采

spark软件是哪家公司的？

是UC BerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，具备Hadoop MapReduce所具高的优点；但不只是MapReduce的是——Job中间输出结果可以保存到在内存中，进而继续不需要读写HDFS，而Spark能更合适地范围问题于数据挖掘与机器学习等要迭代的MapReduce的算法。

400G数据需要分配多少spark内存？

1、怎么分配哪些资源？

executor、coreperexecutor、memoryperexecutor、drivermemory2、在哪里怎么分配这些资源？

在我们在生产环境中，并提交spark作业时，用的spark-receiveshell脚本，里面调整随机的参数/usr/sources/spark/bin/spark-submit--class--num-executors3配置executor的数量--executor-memory100m配置每个executor的内存大小--executor-cores3配置每个executor的cpucore数量--driver-memory100m配置driver的内存（影响大不大）/usr/policies/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar3、适当调节到多大，可以算的最呢？

第一种，SparkStandalone，公司集群上，堆建了一套Spark集群，你心里应该要知道每台机器还都能够给你使用的，也差不多有多少内存，多少cpucore；那就，设置的时候，就依据这个求实际的情况，去功能调节每个spark作业的资源分配。比如你的每台机器都能够给你使用4G内存，2个cpucore；20台机器；executor，20；来算每个executor：4G内存，2个cpucore。第二种，Yarn。资源队列。资源调度。应该要去打开系统，你的spark作业，要重新提交到的资源队列，hadoopsparkstorm每一个队列都有各自的资源（cpumem）大概有多少资源？500G内存，100个cpucore；executor，50；平均每个executor:10G内存，2个cpucore。Spark-submit的时候怎摸指定你资源队列？--confspark.yarn.queuedefault设置队列名称:spark.yarn.queuedefault一个原则，你能建议使用的资源有多大，就不要去调节平衡到大的的大小（executor的数量，七八个到上百个不等；executor内存；executorcpucore）

内存资源 spark executor cpucore

上一篇 cad 点划线怎么弄 cad中的点划线应该使用哪种线型？

下一篇 wgs84坐标系跟2000坐标系一样吗 wgs84与2000坐标一样吗？

安装spark必须安装hadoop吗 spark软件是哪家公司的？

spark软件是哪家公司的？

400G数据需要分配多少spark内存？

猜你喜欢

最新资讯

资讯排行

资讯分类

微信公众号

微信小程序