sklearn中文教程使用sklearn做文本分类，速度比较慢，有什么优化方法？

2021-03-14

2300

使用sklearn做文本分类，速度比较慢，有什么优化方法？首先，我想你可以打印出每一步的时间，看看哪一步需要更多的时间，并尝试找到优化方法。让我先谈谈我想到的几点。在sklearn的一些分类方法中，您

使用sklearn做文本分类，速度比较慢，有什么优化方法？

首先，我想你可以打印出每一步的时间，看看哪一步需要更多的时间，并尝试找到优化方法。让我先谈谈我想到的几点。

在sklearn的一些分类方法中，您还可以尝试在其参数中使用multi-process选项。

如果您的培训数据很大，请先尝试LSA、LDA和其他模型来降低维度。这两种方法在sklearn中也可用。

此外，在countvectorizer中，设置mintf和maxtf参数以避免过多的字。虽然这可能对速度影响很小，但可能会对结果产生影响。

如果你在处理中文文本，必须有一个好的停止词和字典。

暂时就这么多了。

sklearn中有sgdclassizer，通过改变损失函数损失，可以对应不同的分类回归学习器，如下图所示：

默认为使用铰链损失，即实现线性支持向量机