java代码读取文本内容 基于新闻评论的短文本聚类,怎么利用nlp相关技术?

基于新闻评论的短文本聚类,怎么利用nlp相关技术?首先,回答在短文本聚类中使用了哪些技术,比如分词(一个好的分词设备会减少分词片段)、过滤停止词、一些对聚类影响不大的词,比如Le、代词、助词、语义扩展

基于新闻评论的短文本聚类,怎么利用nlp相关技术?

首先,回答在短文本聚类中使用了哪些技术,比如分词(一个好的分词设备会减少分词片段)、过滤停止词、一些对聚类影响不大的词,比如Le、代词、助词、语义扩展,比如word2vec,特征选择、卡方检验、互信息、TFIDF等。本文通过调整参数来调整问题的记忆,为了减少信息量,我们在文本信息空间中搜索任意两个最相关的文本信息,并将它们压缩为一个文本信息。

简并算法的实现比较整个信息空间中所有文本的相关性(熟人),得到它们之间的相关性,然后进行配对。配对的要求是两个文本信息最相关。例如,如果a找到文档B,那么B也必须找到最相关的文档,即a。注意:在某些情况下,a的最近文档是C,那么B和B的最相关文档也是C。存在a、B和C自一致的情况,即形成最近空间信息的三角形。

在获得最相似的文档后,我们将仅对它们进行平均或简单地添加它们。

信息空间中独立信息的数量将减少到原来的一半以下,然后在合并过程中重复实现1的过程。

最后,信息被缩减为唯一信息,即整个信息文本的平均值。

绘制信息树的结构,可以根据簇的大小自动聚类。