hadoop 简单 hadoopmapreduce结果默认按什么排序?

hadoopmapreduce结果默认按什么排序?您需要对不同分区中的数据进行排序和分组。默认情况下,根据键对数据进行排序和分组。一道java面试题,20亿数字的文本排序,如何取前100?因为这是一个

hadoopmapreduce结果默认按什么排序?

您需要对不同分区中的数据进行排序和分组。默认情况下,根据键对数据进行排序和分组。

一道java面试题,20亿数字的文本排序,如何取前100?

因为这是一个Java问题,所以这是典型的TOPK问题。首先取前100个数字构建一个最小堆,然后依次从堆的顶部插入剩余的数字,同时调整堆。堆中最后100个元素就是结果。空间复杂度为K,时间复杂度为nlogk