大家早上好!
我正在研究与 RPA(机器人流程自动化)平台集成的简历解析器。
该机器人具有 OCR 功能,可以从 PDF 简历中提取文本,并提供标记化的内容以及每个单词的 X 和 Y 坐标。
我的目标是创建一个预测模型来识别简历的关键部分,然后在工作流程的其余部分使用传统的简历解析。
该模型中包含的一些功能如下:
| 词 | X_规范 | Y_规范 | 长度_字 | Num_Word_per_Line | 特殊字符?| 包含数字?|
归一化是最小-最大。我们还在努力获取字体大小和标准化颜色(即粗体)。
我的直觉是,传统的机器学习模型可能会更好,因为我们只有资源来标记 200-300 份简历,而不是数千份。但我想对深度学习持开放态度(我没有太多经验)。RPA 工作流程使得简历专家可以实时向模型提供反馈,并且可以即时改进自身的东西对于这个用例可能会更好。
传统的机器学习模型也能有效地自我改进吗?
谢谢你的时间!