我计划使用 scikit 线性支持向量机 (SVM) 分类器对包含 100 万个标记文档的语料库进行文本分类。我打算做的是,当用户输入某个关键字时,分类器首先将其分类到一个类别中,然后在该类别的文档中进行后续的信息检索查询。我有几个问题:
- 我如何确认分类不会花费太多时间?我不希望用户为了获得更好的结果而不得不花时间等待分类完成。
- 是否将 Python 的 scikit 库用于适合此的网站/Web 应用程序?
- 有谁知道 amazon 或 Flipkart 如何对用户查询进行分类,还是他们使用完全不同的逻辑?