我是 ML 新手,正在尝试使用 sklearn的基本示例。我已经使用 TF-IDF 实现了将文本(单维)转换为数字并得到了正确的预测。
现在我有一个不同的用例来根据婚姻状态和关系状态预测工作时间,所以我的训练数据现在是二维的。
我有DataFrame形状24420 rows * 2 columns-->(24420, 2)
将DataFrame其传递给TfidfVectorizer.fit_transform()函数后,它变成了形状-->(2, 3)不知道为什么!
在训练mnb.fit(x_train_tf, y_train)时它会返回一个错误
ValueError:发现样本数量不一致的输入变量:[2, 24420]
你可以看到它的初始DataFrame形状24420*2转换为2*24420
所有代码都在这里。
问题:
为什么
fit_transform()形状改变后数据(2,3)会发生什么变化(24420,2)?这表示什么?为什么会
ValueError: Found input variables with inconsistent numbers of samples [2, 24420]出现?为什么最初
DataFrame的形状变成了2*24420?
实施有什么问题?