从照片中读取音符的一种方法

人工智能 图像识别 光学字符识别
2021-10-25 08:37:09

我环顾四周,一个有前途的方法是这样的:

https://github.com/mpralat/notesRecognizer

问题是:

似乎还不够好。人们应该能够阅读具有较低质量图像的音符。你可以在她身上看到:“坏”图像文件夹只是闪电的微小变化已经导致她的高分辨率图像出现问题。

其他人在这里,他们都使用高分辨率清晰图像:

https://github.com/suyalcinkaya/music-note-recognition

https://github.com/suyalcinkaya/music-note-recognition/blob/master/input_images/im2s.JPG?raw=true

https://github.com/nikolalsvk/note-play

https://github.com/nikolalsvk/note-play/blob/master/images/notes-1.png?raw=true

现在,如果您想拍摄一些曲调的照片并希望它们被识别,这是不令人满意的。

那么可以做些什么来实现一个好的解决方案呢?

我正在考虑把音符当作书面信件来对待。计算机可以很容易地学习带有阿拉伯符号的书写字符。不过我想知道,对于一个非阿拉伯语的人来说,这有多容易?例如在中文或日文中,几个字符组合成一个。这同样适用于音符,它们可以连接起来并形成一些稍微不同的东西,例如

在此处输入图像描述

或者:

在此处输入图像描述

与简单的注释相反,例如:

在此处输入图像描述

什么是尝试运气的好方法,成功地解释这些符号,即使是稍微低分辨率的图像或有点模糊的变形图像。我并不是说要从缩略图中读出 symfony。但不是最佳捕获。

任何主观的想法或评论都非常受欢迎

2个回答

任何主观的想法或评论都非常受欢迎

不是一个完整的答案,而是一些想法:

您的目标被细分为许多任务。它与 OCR 并不完全相同,因为您还需要找到每个音符的垂直对齐方式。


人们应该能够阅读具有较低质量图像的音符。

如果您希望您的模型在低质量图像上执行,您将需要这样的数据库。

但是,您可以生成图像并在其上虚拟地应用各种变形,而不是对打印的纸张进行标记和拍照。

请参阅kagle 上的 MNIST 来训练模型以识别您的案例中的给定笔记集。

你的例子

如果您开始训练模型将根据图像中的位了解模式。

当最后 2 组有微小变化的照片时,问题会出现模糊的图像。将是计算机难以区分的任务。

有一种可靠的方法,几乎​​每次都有效,但资源密集,需要大量数据来训练。是 DNN。

这是我对你的问题的看法。