Google Speech API中的土耳其语语音识别(语音->文本)?

机器算法验证 语音识别
2022-04-03 11:47:47

Google 的语音 API具有多种语言的音频语音转文本功能。它也支持土耳其语。这种语言非常有趣,它就是所谓的粘着性:你将单词部分一个接一个地粘贴,而不是像英语这样的语言中的介词和其他部分。这导致几乎无限大小的词汇量。

你知道谷歌是如何为他们的 API 实现土耳其语语音识别的吗?我不敢相信他们使用了与英语相同的技术。

更新

以下是 Google API 从YouTube 上的以下剪辑返回的示例脚本:

你得问他我不知道雅虎的答案我真的是杜鲁门秀中 Jumanji 中的亚当斯科特相信它会听我不在这两部电影中,所以是的,你真的不应该 * * * *

我认为这是出色的转录质量。我使用了我漂亮的 AudioEngine 监听器,并在它前面放了一个 20 岁的 LabTec 电脑麦克风。一个真正的业余设置,但这就是这些东西在实践中的使用方式,即在不太理想的情况下。

这是土耳其电影场景的一个例子

merhaba Temmuz Ben hoş geldin kardeş e nasılsınız keyifler iyidir inşallah İyi valla koşturuyoruz nasıl olsun Hem kardeş lafı uzatmadan konuya girsek anlattı bana ikinci el işçiliği Tabii sen güzel bir şey yapıyor güzel bir şey yapıyor güzel bir

这个基本看不懂。它会在这里和那里提取一些单词,但与英语示例不同,很难将它们连接起来。

这是否意味着 Google 没有为土耳其语使用自定义解决方案?也许他们想将他们的英语语言引擎重新用于土耳其语?

只是为了好玩,我发了一个来自阿塞拜疆语的人的剪辑他的讲话很清楚,但 API 几乎没有几个字。我使用了土耳其语设置,所以这不公平,真的,但语言是相似的:

o akşam Çağlayan Doruk sevgilin kim bu kim baktı Bülent Serttaş çok pis

1个回答

生产中使用的东西通常不会被披露。我不知道谷歌披露他们使用生产的当前自动语音识别 (ASR) 系统是如何工作的。一种近似的方法是扫描 ICASSP/Interspeech/etc。谷歌出版物的诉讼程序。

无论如何,把谷歌放在一边:这个问题可以概括为“如何在具有大型或开放式字典的语言中执行 ASR? ”。

一种方法是使用子词语言建模,例如来自 {1}:

摘要:在这项研究中,研究了为土耳其语等粘着性语言开发的自动语音识别 (ASR) 系统的词汇表外 (OOV) 单词问题的一些解决方案,并提出了对该问题的改进。已经表明,通过降低具有复杂形态的语言中的 OOV 词比率,使用子词语言模型优于基于词的模型。

或来自 {2}:

摘要:土耳其语语音识别研究最近得到了加速。通过这些努力,不仅可以在识别实验中使用的可用语音和文本语料库而且还提出了提高准确性的新方法。土耳其语的凝集性导致大词汇量连续语音识别 (LVCSR) 任务中出现词汇不足 (OOV) 问题。为了克服OOV问题,已经提出使用子词单元。除了 LVCSR 实验之外,还有一些努力在放射学等有限领域实现语音识别器。在本文中,我们将介绍利用最近的研究开发的土耳其语语音识别软件。将总结两个不同测试集中的软件界面和识别精度。使用放射学和大词汇测试集评估了软件的性能。为了实际解决OOV问题,我们建议使用频繁的单词或句子来适应语言模型。在识别实验中,在放射学和大词汇测试集上分别实现了 90% 和 44% 的单词准确率。


参考:

  • {1} Akın、Ahmet Afşın、Cemil Demir 和 Mehmet Uğur Doğan。“改进土耳其语语音识别的子词语言建模。” 在信号处理和通信应用会议 (SIU),2012 年第 20 期,第 1-4 页。IEEE,2012。https://scholar.google.com/scholar ?cluster=8818380122461969221 &hl= en&as_sdt=0,5 ;http://ieeexplore.ieee.org/abstract/document/6204752/
  • {2} Buyuk、Osman、Ali Haznedaroglu 和 Levent M. Arslan。“具有自适应语言模型的土耳其语语音识别软件。” 在信号处理和通信应用中,2007 年。SIU 2007 年。IEEE 第 15 届,第 1-4 页。IEEE,2007。https ://scholar.google.com/scholar? cluster=17945910226656308345&hl=en&as_sdt=0,5 ;http://ieeexplore.ieee.org/abstract/document/4298561/