scikit 分类器需要多少时间进行分类?

数据挖掘 机器学习 分类 Python scikit-学习
2021-10-03 05:48:45

我计划使用 scikit 线性支持向量机 (SVM) 分类器对包含 100 万个标记文档的语料库进行文本分类。我打算做的是,当用户输入某个关键字时,分类器首先将其分类到一个类别中,然后在该类别的文档中进行后续的信息检索查询。我有几个问题:

  1. 我如何确认分类不会花费太多时间?我不希望用户为了获得更好的结果而不得不花时间等待分类完成。
  2. 是否将 Python 的 scikit 库用于适合此的网站/Web 应用程序?
  3. 有谁知道 amazon 或 Flipkart 如何对用户查询进行分类,还是他们使用完全不同的逻辑?
2个回答

我认为这里没有什么大问题。因此,我将尝试从生产层面的角度回答您的所有问题:

我如何确认分类不会花费太多时间?

获取您拥有的语料库数据的一个子集(您可以随机进行,无需采样),并在其上测试您的算法,然后他们将其近似/概括为整个数据集。

(SVM 相对较快。不过,为了确定,请执行上述过程。)

并在投入生产之前在开发环境中进行测试。

是否将 Python 的 scikit 库用于适合此的网站/Web 应用程序?

的,是的。已经被很多公司使用。

关于亚马逊和 Flipkart 的第三个问题无法由团队以外的人回答。

此外,我建议您使用 mapreduce 技术来训练您的模型。正如已经建议的那样,腌制你的模型,这样你就不需要对每个请求都进行训练。

查看需要多长时间的唯一可靠方法是将其编码并试一试。训练需要更多时间,然后您可以保存模型(pickle)以供以后使用。