我有一个表示带有 300 个标签的带注释数据集的 DataFrame。
DataFrame 如下所示(第一行仅用于解释列):
binary Vector column for labeling, feature column
[0, 1, 1, 0, 0 , 0.... ], featureVec
[0, 0, 1, 0, 1 , 0.... ], featureVec
......
标签列,将每个标签的存在或不存在表示为特征向量的注释(我们可以在第二列中看到)。
如果我错了,请纠正我:我无法训练一个多类分类器,因为标签不是排他的,所以我想为每个标签训练一个二元分类器。
因为我有 300 个标签,所以我需要训练和优化 300 个分类器(例如逻辑回归分类器)。
使用 N 交叉验证来训练我的分类器以进行参数优化的最佳方法和最佳实践是什么?任何示例代码或参考都受到高度赞赏。
一旦分类器被优化,保存最佳模型并使用它们对新数据进行分类的最佳方式和最佳实践是什么?