这是我拥有的示例数据:
标签 1(Val:X)、标签 2(Val:Y)、标签 3(Val:Z)、标签(Val:P)
标签 1(Val:A)、标签 2(Val:B)、标签 3(Val:C)、标签(Val:Q)
标签 1(Val:D)、标签 2(Val:E)、标签 3(Val:F)、标签(Val:R)
标签 1(Val:G)、标签 2(Val:H)、标签 3(Val:I)、标签(Val:S)
我首先将标签放入数据框 df,将标签放入单独的数据框 df_label。然后使用 HashingVectorizer 准备文本以供 ML 模型处理(我想将字符串散列成唯一的数值,以便 ML 模型可以对其进行训练)
vectorizer = HashingVectorizer()
X_train = vectorizer.transform(df)
y_train = vectorizer.transform(df_label)
clf = RandomForestClassifier(n_jobs=2, random_state=0)
clf.fit(X_train, y_train)
当我执行此操作时,我得到:ValueError: Unknown label type: 'unknown' on y_train.
我对 Python 和 ML 都是新手,我不确定问题出在我的基本逻辑上,还是只是一个微不足道的实现问题。感谢您的洞察力和支持。