在我最近对机器学习 NLP 任务的研究中,我发现了这个非常好的教程,教你如何构建你的第一个文本分类器:
关键是我一直认为你必须在使用 Bag-of-Words 或 WordEmbeddings 或 TF-IDF 之间进行选择,但在本教程中,作者使用 Bag-of-Words (CountVectorizer),然后使用 TF-IDF 覆盖特征由词袋生成。
text_clf = Pipeline([('vect', CountVectorizer()),
... ('tfidf', TfidfTransformer()),
... ('clf', MultinomialNB()),
... ])
这是一种有效的技术吗?我为什么要这样做?