数据挖掘 - scikit 分类器需要多少时间进行分类？ - 吾爱随笔录

数据挖掘机器学习分类 Python scikit-学习

2021-10-03 05:48:45

我计划使用 scikit 线性支持向量机 (SVM) 分类器对包含 100 万个标记文档的语料库进行文本分类。我打算做的是，当用户输入某个关键字时，分类器首先将其分类到一个类别中，然后在该类别的文档中进行后续的信息检索查询。我有几个问题：

2个回答

我认为这里没有什么大问题。因此，我将尝试从生产层面的角度回答您的所有问题：

我如何确认分类不会花费太多时间？

获取您拥有的语料库数据的一个子集（您可以随机进行，无需采样），并在其上测试您的算法，然后他们将其近似/概括为整个数据集。

（SVM 相对较快。不过，为了确定，请执行上述过程。）

并在投入生产之前在开发环境中进行测试。

是否将 Python 的 scikit 库用于适合此的网站/Web 应用程序？

是的，是的。它已经被很多公司使用。

关于亚马逊和 Flipkart 的第三个问题无法由团队以外的人回答。

此外，我建议您使用 mapreduce 技术来训练您的模型。正如已经建议的那样，腌制你的模型，这样你就不需要对每个请求都进行训练。

查看需要多长时间的唯一可靠方法是将其编码并试一试。训练需要更多时间，然后您可以保存模型（pickle）以供以后使用。

其它你可能感兴趣的问题