机器学习和自然语言处理:项目启动

数据挖掘 机器学习 nlp
2022-02-16 07:13:59

我正处于一个长期项目的研究阶段,并愿意从您那里获得一些有用的反馈,以了解最合适的项目路径。

现在的情况:

  • 一个由所谓的生产编辑器 (PE) 组成的大型团队正在半自动处理 MS Word 文件,以便进行复制编辑和布局。
  • 这目前是半自动化的,其中 PE 将在不同的文本段落上应用不同的宏,以设置适当的样式、位置、字体等。
  • 仍然有许多动作是手动的,并且取决于人眼检查,最终导致许多错误和平均质量

计划

  • 开始使用机器学习,以后可能会使用神经网络、统计概率和人工智能
  • 机器学习的使用(开始)可能是系统将学习用户完成的手动任务(意味着该工具无法以自动化方式正确完成这些任务),然后尝试将这些应用到下一个类似情况
  • 类似情况的术语在这里很重要,因为这意味着自然语言处理 (NLP)。工作人员正在处理可能包含任何内容的word文档(在类似的布局中)

当天的困境是:):

为了进行一些用例分析,从哪里开始?我目前拥有的:

  • 正确完成的超过 100k 字的文件(除了可能仍然存在的用户错误)
  • 适用于描述需要使用的确切样式的 word 文档的规则列表(非详尽)
  • 基本机器学习知识(从 AI 学习开始)
1个回答

从一小部分文档(约 50 个)作为带有一组规则实现的训练集开始将是一个很好的起点。使用一些算法进行训练,看看你的训练准确度是否可以接受或优于人类准确度。

然后慢慢增加你的训练批量大小,看看对结果的影响。

一旦您认为训练集是数据集的部分良好表示,请继续进行测试运行。然后从那里继续增长。