传统 ML 模型还是深度学习,大约 200-300 个样本?

数据挖掘 机器学习 神经网络 深度学习 分类 决策树
2022-02-22 12:32:29

大家早上好!

我正在研究与 RPA(机器人流程自动化)平台集成的简历解析器。

该机器人具有 OCR 功能,可以从 PDF 简历中提取文本,并提供标记化的内容以及每个单词的 X 和 Y 坐标。

我的目标是创建一个预测模型来识别简历的关键部分,然后在工作流程的其余部分使用传统的简历解析。

该模型中包含的一些功能如下:

| 词 | X_规范 | Y_规范 | 长度_字 | Num_Word_per_Line | 特殊字符?| 包含数字?|

归一化是最小-最大。我们还在努力获取字体大小和标准化颜色(即粗体)。

我的直觉是,传统的机器学习模型可能会更好,因为我们只有资源来标记 200-300 份简历,而不是数千份。但我想对深度学习持开放态度(我没有太多经验)。RPA 工作流程使得简历专家可以实时向模型提供反馈,并且可以即时改进自身的东西对于这个用例可能会更好。

传统的机器学习模型也能有效地自我改进吗?

谢谢你的时间!

1个回答

您拥有的数据越少,您的模型就越不复杂。否则你会过度拟合你的数据。在对你的数据集了解不多的情况下,我没有一个很好的方法来判断哪种模型适合你但我怀疑你是否会从 200 个数据点中获得任何有意义的深度学习模型。尝试一些更简单的模型,比如词袋,看看你是否过拟合。如果是这样,您将只需要收集更多数据。如果没有,请尝试增加复杂性的模型,看看在过度拟合之前你能获得多准确。