如何创建具有多个选项的一组特征的数据集,其中一个选项是预期结果?

数据挖掘 机器学习 xgboost
2022-02-17 21:38:39

我看到的大多数数据集是:

特征 1、特征 2、特征 3、结果

结果是二元的,例如,如果他们是癌症阳性结果将是 1,如果他们没有癌症,结果将是 0。

如何创建一个数据集,其中有多个结果并且每个可能的结果都有一组特征?

例如,我有一个问题,有 3 个可能的答案:

“什么器官在人体周围抽血?”
A. 心脏
B. 肝脏
C. 教堂器官

每个答案都有一组特征,其中一个答案是正确的。我将如何在 csv 文件中显示它?我想将其读入 xgboost 算法进行训练。

问题、选项 1 和特征、选项 2 和特征、选项 3 和特征、正确选项

非常感谢您的帮助!

1个回答

最终的特征向量将是一个类似的连接(用于多类预测):

问题谷歌计数 | 选项 A google count | 选项 B 谷歌计数 | 选项 C 谷歌计数 | 选项 C 没有。话| 选项 A 没有。话| 其他特点 | 标签 (1, 2, 3)

无需将与选项 A 相关的特征彼此靠近(或以任何特定顺序),它们只需要在所有行的同一列上,而不管标签如何。

用于多类分类的 XGBoost 参数为:

'objective': 'multi:softprob',
'num_class': 3