为二进制分类问题标记训练数据的解决方案

数据挖掘 分类 半监督学习 贴标签
2022-03-09 14:27:52

我有一个巨大的数据集,我正在尝试使用 80-20(Holdout 方法)方法来训练和测试我的模型。但是,我得到的数据集有 6m 行。目标是在使用实时数据流量进行实时预测之前训练+测试+验证模型。

这里的预期结果是“它没有以 97% 的准确率损坏”,这是一些 Jupyter 笔记本等的实现细节和输出。

我的问题是 - 除了手动标记这么大的数据集之外,还有其他选择吗?

通过手动标记 - 我的意思是一个人(或一组)遍历所有 6m 行(!)。此外,并非所有输入字符串都具有相同的内容,因此很难通过一些脚本/csv 推送它并使其自动化。但我试图了解这是否是唯一的方法。

1个回答

当然不是。这是一个简单的可能解决方案。

进行无监督学习。如果您做得好且高效,您将只会在数据中看到这两组(二元分类)。你的剪影分数会很高。因此,您可以自动标记这些组/集群。