我正在使用词袋模型进行分类。目标是根据用户的推文定位用户。将数据拆分为 80% 的训练和 20% 的测试。
我用 sklearn 的 SVC 和 Naives Bayes 做了实验。结果的准确率分别为 35% 和 42%。但是,当我尝试 sklearn 的 LinearSVC 算法时,它给了我 80% 的结果,这让我感到震惊。
这是代码的一部分:
text_clf = Pipeline([
('vect', CountVectorizer(stop_words='english')),
('tfidf', TfidfTransformer()),
('clf', LinearSVC()),
])
text_clf.fit(train_data, train_target)
这可能是什么原因?为什么 LinearSVC 表现得非常好?