我有多个标签的数据,例如
我的X集是从第二列到第三列,我想对第一列或最后一列进行分类,所以我将Y设为最后一列。
目标是,如果我对 Vios 进行分类,它会返回Car或0,换句话说,它可以找到第一行的方式。
分类用例:
classify("poodle") #just pretend this is a working function
返回:宠物
我是如何尝试训练我的模型的:
from sklearn.feature_extraction.text import TfidfVectorizer
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 72)
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
clf3 = RandomForestClassifier().fit(X_train_tfidf, y_train)
我正在使用网络上某个地方的指南,它与它的工作方式有点相同,但最后我得到了返回:
ValueError: Found input variables with inconsistent numbers of samples: [5, 4156]
我马上就知道我做错了。如何训练模型以实现我的目标?我应该遵循的任何相关指南或技术?我什至不知道在这种情况下使用向量的正确方法。
