java和python 一个100g的大文件,如何高效统计词频?并取出出现频率最高的前三个?

一个100g的大文件,如何高效统计词频?并取出出现频率最高的前三个?首先,将文章分成单词,转移到数据库,然后按单词分组,或者使用elasticsearch更快顺便说一句,让我们看看安利用Python编

一个100g的大文件,如何高效统计词频?并取出出现频率最高的前三个?

首先,将文章分成单词,转移到数据库,然后按单词分组,或者使用elasticsearch更快

顺便说一句,让我们看看安利用Python编写的词频统计脚本:英文文本Python词频统计-魏华文章-智湖专栏