数据挖掘 - 为二进制分类问题标记训练数据的解决方案 - 吾爱随笔录

我有一个巨大的数据集，我正在尝试使用 80-20（Holdout 方法）方法来训练和测试我的模型。但是，我得到的数据集有 6m 行。目标是在使用实时数据流量进行实时预测之前训练+测试+验证模型。

这里的预期结果是“它没有以 97% 的准确率损坏”，这是一些 Jupyter 笔记本等的实现细节和输出。

我的问题是 - 除了手动标记这么大的数据集之外，还有其他选择吗？

通过手动标记 - 我的意思是一个人（或一组）遍历所有 6m 行（！）。此外，并非所有输入字符串都具有相同的内容，因此很难通过一些脚本/csv 推送它并使其自动化。但我试图了解这是否是唯一的方法。