我是 nlp 的新手。最近想做一些小的nlp任务,遇到了奇怪的事情。那就是我已经运行了以下代码
from sklearn.feature_extraction.text import TfidfVectorizer
docs = ["strange event"]
tfIdf_vectorizer = TfidfVectorizer(analyzer='word', tokenizer=word_tokenize,
stop_words=stopwords, ngram_range=(1, 2), use_idf=True,
norm='l2')
tfidf = tfIdf_vectorizer.fit_transform(docs)
print(tfidf)
并查看以下结果
(0, 2) 0.5773502691896258
(0, 0) 0.5773502691896258
(0, 1) 0.5773502691896258
一个文档的 tfidf 不应该为零吗?(因为 IDF=log(1/1)=0)