我正在尝试建立一个回归模型,其中一个特征包含文本数据。我正在考虑使用 scikit-learn 的 sklearn.feature_extraction.text.TfidfVectorizer
. 然而,问题是实际的字符串包含很少的单词。平均为 1.8。这是一个示例:
print(df.keyword)
0 fre lifeproof
1 car stereo
2 analog clock
3 refrigerator
所以我的问题是,
- 也
TfidfVectorizer
适合这种情况吗?或者这种稀疏的结果矩阵不会使模型受益吗? - 有没有更适合这种情况的方法?