是否有任何现有的应用程序可以对某人的声音进行采样并使用它来调制任何其他声音或合成文本以类似于原始声音?
例如,AT&T 的这个 Text-to-Speech Demo可以让你从预设中选择一种声音和一种语言,我猜这些预设是基于一些已经采样的人类声音。
你怎么称呼这个过程?是语音调制吗?语音合成?
是否有任何现有的应用程序可以对某人的声音进行采样并使用它来调制任何其他声音或合成文本以类似于原始声音?
例如,AT&T 的这个 Text-to-Speech Demo可以让你从预设中选择一种声音和一种语言,我猜这些预设是基于一些已经采样的人类声音。
你怎么称呼这个过程?是语音调制吗?语音合成?
第一个注意事项:大多数现代文本到语音系统,例如您链接到的 AT&T 系统,都使用连接语音合成。该技术使用一个人的语音录音的大型数据库,该数据库记录了一个人说出一长串句子的声音 - 选择以便存在最大数量的音素组合。只需将这个语料库中的片段串在一起就可以合成一个句子 - 具有挑战性的一点是使串连起来无缝且富有表现力。
如果你想用这个技巧让奥巴马总统说出尴尬的话,有两个很大的障碍:
您认为这是一个可能的解决方案的直觉是有效的——只要您有预算来解决这两个问题。
幸运的是,还有其他技术可以在较少监督和较少数据的情况下工作。对“伪造”或“模仿”录音中的一个声音感兴趣的语音合成领域称为语音转换。您有目标说话者 A 说句子 1 的录音 A1,和源说话者 B 说句子 2 的录音 B2,您的目标是生成说话者 A 说句子 2 的录音 A2,可能访问说话者 B 的录音 B1 再现他/她的声音与目标说话者相同的话语。
语音转换系统的概要如下:
我坚持这样一个事实,即这比在 B2 上执行语音识别,然后使用 A1 的语音作为语料库进行 TTS 低得多。
步骤 1 和 2 使用了各种统计技术 - GMM 或 VQ 是最常见的。第 2 部分使用了各种对齐算法 - 这是最棘手的部分,而且对齐 A1 与 B1 显然比对齐 A1 与 B2 更容易。在更简单的情况下,可以使用动态时间扭曲等方法进行对齐。至于步骤 4,最常见的变换是对特征向量的线性变换(矩阵乘法)。更复杂的变换会产生更真实的模仿,但寻找最佳映射的回归问题更难解决。最后,至于第 5 步,再合成的质量受到使用的特征的限制。LPC 通常更容易处理简单的变换方法(获取信号帧 -> 估计残差和 LPC 频谱 -> 如有必要,音高偏移残差 -> 将修改后的 LPC 光谱应用于修改后的残差)。使用可以反转回时域的语音表示,并在韵律和音素之间提供良好的分离是这里的关键!最后,如果您可以访问说话者 A 和 B 说同一个句子的对齐录音,那么就有统计模型可以在一个模型估计过程中同时处理步骤 1、2、3 和 4。
稍后我可能会带着参考书目回来,但是一个很好的开始感受这个问题的地方以及用于解决它的整体框架是 Stylianou、Moulines 和 Cappé 的“基于概率分类和谐波的语音转换系统加噪声模型”。
据我所知,没有广泛的软件可以执行语音转换——只有软件修改源语音的属性——比如音高和声道长度参数(例如 IRCAM TRAX 转换器)——你必须使用它来制作你的录制更接近目标声音的声音。
您可以使用MorphVox 之类的东西。这是一个演示。该过程称为语音变形或转换。如果您对技术方面感兴趣,可以学习最近的一篇文章是Voice Conversion Using Dynamic Kernel Partial Least Squares Regression。
我正在寻找同样的东西,但它无法完成。苏格兰有一家名为 CereProc 的公司进行语音建模,但他们需要有人在他们的实验室录制数小时的音频,并且为单个语音建模的成本约为 3 万美元。
您正在寻找的东西称为声码器。
你试过 Audcity 的声码器吗?Audacity 可以从以下网址下载:http ://audacity.sourceforge.net/download 。有关如何使用它的演示可以在https://www.youtube.com/watch?v=J_rPEmJfwNs找到。