我有一个巨大的数据集,我正在尝试使用 80-20(Holdout 方法)方法来训练和测试我的模型。但是,我得到的数据集有 6m 行。目标是在使用实时数据流量进行实时预测之前训练+测试+验证模型。
这里的预期结果是“它没有以 97% 的准确率损坏”,这是一些 Jupyter 笔记本等的实现细节和输出。
我的问题是 - 除了手动标记这么大的数据集之外,还有其他选择吗?
通过手动标记 - 我的意思是一个人(或一组)遍历所有 6m 行(!)。此外,并非所有输入字符串都具有相同的内容,因此很难通过一些脚本/csv 推送它并使其自动化。但我试图了解这是否是唯一的方法。