impala删除指定分区 impala为什么比hive快？

2021-03-10

1892

impala为什么比hive快？Impala声称数据查询的效率是hive的几倍甚至几十倍。为什么黑斑羚这么快的原因如下：真正的MPP查询引擎。使用C开发而不是Java来减少运行负载。运行时代码生成（l

impala为什么比hive快？

Impala声称数据查询的效率是hive的几倍甚至几十倍。为什么黑斑羚这么快的原因如下：

真正的MPP查询引擎。

使用C开发而不是Java来减少运行负载。

运行时代码生成（llvm IR）以提高效率。

新的执行引擎（不是MapReduce）。

执行SQL语句时，impala不会将中间数据写入磁盘，而是在内存中完成所有处理。

使用impala时，将立即执行查询任务而不是生产MapReduce任务，这将节省大量初始化时间。

Impala查询计划解析器使用更智能的算法在多个节点上以分布式方式执行每个查询步骤，同时避免了排序和洗牌这两个非常耗时的阶段，这两个阶段通常是不必要的。

Impala在HDFS上有每个数据块的信息。在处理查询时，impala可以在每个数据节点上更均匀地分布查询。

另一个关键原因是impala为每个查询生成程序集级代码。当impala在本地内存中运行时，汇编代码的执行效率比任何其他代码框架都要快，因为代码框架会增加额外的延迟。