基于bert的文本相似度如何用python计算文本的相似度？

2021-03-15

1135

如何用python计算文本的相似度？第1步：将每个网页文本分成单词，形成一袋单词。第三步：统计网页（文档）总数M。第三步：统计第一个网页n中的字数，计算第一个网页的第一个字在网页n中出现的次数，然后计

如何用python计算文本的相似度？

第1步：将每个网页文本分成单词，形成一袋单词。第三步：统计网页（文档）总数M。第三步：统计第一个网页n中的字数，计算第一个网页的第一个字在网页n中出现的次数，然后计算出该字在所有文档M中出现的次数，则该字的TF IDF为：n/n*1/（M/M）（还有其他规范化公式，这里是最基本、最直观的公式）。第四步：重复第三步计算网页中所有单词的TF-IDF。第五步：重复第四步计算所有网页中每个单词的TF-IDF值。三。用户查询处理的第一步：用户查询的分词。第二步是根据web数据库（文档）的数据计算用户查询中每个词的TF-IDF值。4余弦相似度用于计算用户查询与每个网页之间的夹角。角度越小，越相似。

如何用python计算文本的相似度？

怎么在大数据文件记录中对比单个文本相似度？

相关推荐