c++教程 hive执行作业时reduce任务个数设置为多少合适？

2021-04-14

1954

hive执行作业时reduce任务个数设置为多少合适？设置减速器的数量会极大地影响执行效率配置单元执行减速机. 字节/减速机（默认值为1000^3）2配置单元执行减速机. max（默认值为999）计算

hive执行作业时reduce任务个数设置为多少合适？

设置减速器的数量会极大地影响执行效率配置单元执行减速机. 字节/减速机（默认值为1000^3）

2配置单元执行减速机. max（默认值为999）计算减速器数量的公式非常简单：n=min（参数2，总输入数据/参数1）。通常，需要手动指定减速器的数量。考虑到map级的输出数据量通常远小于输入级的数据量，即使没有设置减速器的数量，也有必要重置参数2。根据Hadoop的经验，参数2可以设置为0.95*（集群中tasktracker的数量）。正确的reduce任务数应为0.95或1.75×（节点数×）mapred.tasktracker.tasks任务1HBase：基于Hadoop数据库，是NoSQL数据库；HBase表是物理表，适合存储非结构化数据。

2. Hive：它不存储数据，而是依赖HDFS和MapReduce，通过SQL计算和处理HDFS上的结构化数据；Hive中的表是纯逻辑表。

这两者通常一起使用。

1. HBase：实时随机查询海量详细数据，存储采集到的web数据；

2。配置单元：适用于离线批量数据计算，一般用于查询分析和统计。

hive执行作业时reduce任务个数设置为多少合适？

相关推荐