改变音高是否足以匿名一个人的声音?

信息安全 匿名 去匿名化
2021-08-09 05:04:48

在每个想要保持匿名的人的电视节目中,他们改变声音的方式在我看来就像是音高(频率)的简单增加或减少。我想知道的是:

  • 通常的匿名化方法实际上是基于音高的简单变化,还是大多数电视/媒体/等正在使用的更复杂的转换?
  • 一个简单的音调变化是否足以使恢复原始声音变得不可能或非常困难?我认为如果将声音更改为更高的音调,通过降低音调我可能会尝试获得原始声音,但我不确定它有多难或可靠。

请注意,我只是在谈论语音质量,而不是当然可以立即对一个人进行匿名化的其他功能(如口音、方言、个人词汇和俚语等)

4个回答

简单的音调变化不足以掩盖声音,因为对手可以简单地将音频调回原声来恢复原始音频。

大多数语音调制器使用声码器,而不是简单的音高变化。不幸的是,“声码器”这个词如今已经被严重超载了,所以为了澄清,我指的是音乐中最常用的类型,而不是相位声码器、音高重映射器或语音编解码器。

其工作方式如下:

  1. 语音输入音频(称为调制信号)被分成时间片,并分析其频谱内容。在 DSP 中,这通常使用FFT来实现,它有效地将信号从时域(随时间变化的幅度序列)转换为频域(频率增加的信号集合,如果组合起来,则代表信号)。在实践中,实现为固定数量的“桶”中的每一个输出幅度和相位值,其中每个桶代表一个频率。如果您要在 FFT 输出的幅度和相位偏移处为每个桶生成一个正弦波,然后将所有这些正弦波加在一起,您将获得非常接近原始信号的近似值。
  2. 生成载波信号。这是您想让语音调制器听起来像的任何合成声音,但一般的经验法则是它应该是相当宽带的。一种常见的方法是使用具有大量谐波(例如锯齿波或方波)的合成器类型并添加噪声和失真。
  3. 载波信号通过一组滤波器,其中心频率与 FFT 桶的中心频率相匹配。每个过滤器的参数由其关联的存储桶的值驱动。例如,可以应用具有高Q 因子的陷波滤波器,并使用 FFT 输出调制滤波器的增益。
  4. 得到的调制信号是输出。

一个相当粗略的模拟方法图如下:

通道声码器

使用带通滤波器将音频输入分成多个频带,每个频带只通过一个狭窄的频率范围。“过程”模块获取结果并执行某种幅度检测,然后成为电压控制放大器 (VCA) 的控制信号。顶部的路径生成载波波形,通常通过对输入执行包络检测并使用它来驱动压控振荡器 (VCO)。然后,载波通过右侧的带通滤波器过滤成单独的频带,然后通过 VCA 驱动并组合成输出信号。整个方法与上述 DSP 方法非常相似。

还可以应用其他效果,例如前置和后置过滤、噪声和失真、LFO 等,以获得所需的效果。

这很难反转的原因是原始音频实际上从未真正传递到输出。相反,信息是从原始音频中提取的,然后用于生成新信号。这个过程本质上是有损的,以至于很难逆转。

tl; dr 它通常不可逆,但在实践中可能仍会被逆转。


类比:将名称缩短为长度的可逆性。

考虑一种简化方法,它接受一个人的名字并给出其中的字母数量。例如,"Alice"转换为5.

这是一个有损过程,因此一般无法逆转。也就是说,我们通常不能说5一定映射到"Alice",因为它也可能映射到,例如"David"

也就是说,知道转换5仍然包含很多信息,因为我们可以排除任何不转换为5. 例如,显然不是"Christina"

所以现在说你是一名警探,试图破案。您已将嫌疑人范围缩小到 Alice 和 Bob,并且您知道罪犯的匿名姓名是5. 当然,您通常不能reverse 5,但是,在这种情况下,该理论点真的对 Alice 有帮助吗?


要点:有损语音转换通常不可逆,但它们仍然会泄漏信息。

在过去的好日子里,在计算机等之前,有损地改变一个人的声音可能就足够了。然后,如果第三方想要恢复原始说话者的声音,他们就做不到——当时可能就是这样。

今天,我们可以通过以下方式使用计算机:

  1. 建立带有先验概率标记的可能性集合。

  2. 象征性地运行语音匿名化软件以生成语音的概率集合。

  3. 以该集合的内积为例,一组嫌疑人以生成一组知情的概率。

此方法适用于任何完全有损的变换。但是,所得信息的有用性会随着匿名化方法的损失程度而有所不同;尽管通常不可逆,但轻度有损变换在实践中可能仍然在很大程度上是可逆的,而严重有损变换可能产生的有用信息非常少,以至于它实际上是不可逆的。

不,它肯定不安全。

如果我要这样做,我会使用语音来发短信,然后使用像斯蒂芬霍金这样的普通声音进行口述。这完全消除了任何实际的语音信息。

剩下的唯一一件事就是通过形式化/规范化你的词汇/句子来匿名化你的方言风格。

老实说,后期非常困难。使思想正常化是极其复杂的。但是,如果没有它,您将泄露个人身份信息。

与 InfoSec 的所有事情一样,它取决于您的威胁和对手的资源。

如果你想对你哥哥开一个恶作剧,假口音就足够了。如果你想愚弄你的妻子,那就更难了。

如果你试图与拥有足够技术资源的对手进行复杂的对话,根据具体情况,如果没有大量帮助,这几乎是不可能的,除非你知道你在隐藏你的声音,对他们没意见。

问题不在于音高,而是你无意识地做的各种事情。你有“流行语”,你说的话。您的演讲、单词使用以及更重要的是您一直误用的特定单词都有节奏。你会有一些你发音与大多数人不同的单词,或地区口音等。这几乎就像指纹一样。

你可以训练自己摆脱一些你抓住它的地方,但那会变成你的指纹。

你可能(如果你是一个好演员)“接受这个角色”并故意改变其中的许多“只是为了这个角色”,然后在完成后放弃它。这会欺骗许多类型的分析,但这是很多工作,你必须每次都在。