我的问题更多是关于什么方法是解决我的问题的好/最好的方法:
问题 -
我是一名(机械/软件)工程师,在技术图纸完成/准备好/满足要求之前,我们会花费大量时间来审查技术图纸。此质量检查过程包括我们的 CAD 绘图员、绘图检查员、工程师和最终工程检查之间的循环。
无论图纸的类型(机械、电气、管道、属性草图等)如何,我们总是需要检查图纸的格式和包含的信息是否一致。
在过去的几年里,我花了很多时间来处理相对简单的机器学习技术(决策树/监督学习方法),这似乎是一个尝试更复杂事物的好机会。几年前,我还在 Go(lang) 中编写了一个(未优化的)神经网络,所以我对该领域并不完全陌生。
一个办法:
对于编写可以解决此类问题的算法,您建议采用什么方法?
我目前的计划是:
- 在许多不同的零件/图表/网络等的完整性的各个阶段收集尽可能多的图纸。
- 将它们分成“完整”和“不完整”的组
- 我打算从决策树/随机森林开始,因为它似乎是一个分类问题,分类数量可能有限
- 但是首先我需要将图表(pdf)转换为像素数组,因为标准图像识别不起作用
- 这就是我认为这实际上对神经网络更好的原因,因为解析原始数据最容易输入到神经网络(如果所有图表的维度相同)
因此,我可以将图表输入神经网络,并给出每个错误的输出,或者它是否正确。重要的是完全不同的对象的两个图表都可能由于相同的原因而失败(例如缺少尺寸标签)。我想 a) 想知道问题是什么,并且 b) 如果可能的话,能够准确地输出失败的原因。
有人可以建议吗?谢谢