我为我的文本数据使用了 4 个分类器:NB、kNN、DT 和 SVM。至于 NB 和 kNN,我完全理解它们是如何处理文本的——我们如何计算 NB 中所有单词的概率,以及如何在 kNN 中使用 TF-IDF 向量的相似性度量我完全不明白决策树和支持向量如何机器处理文本数据。我在 Python 中实现了所有算法,所以我需要的只是一些资源或解释其他两个分类器如何处理文本......
我理解 DT 与非文本数据 - 例如节点检查某些数据是否大于/小于某个数字,它是合乎逻辑的。但是对于文字,我感到困惑。它是作用于文本还是数值向量?这同样适用于 SVM...