我们说话时广告商会听吗?

信息安全 隐私 移动的 监视
2021-08-17 05:09:09

一个人与另一个人谈论某件事情(产品或服务),谈话后不久,该人在移动或桌面设备上收到所讨论事情的广告。

我听说过并阅读过此类事件,但不知道该怎么想。直到前几天我还亲身经历过这样的事情:和我的妻子讨论了某种产品,几天后在Facebook上发布了它的广告。

我的问题:这只是一个意外,没有任何理由考虑私人安全问题,还是移动设备上的浏览器确实分析了通过允许的麦克风访问进行的通话?

诚然,如果真的存在这样的问题,也很难研究,因为广告的提及和出现之间没有直接关系。但是,如果人们意识到这种提及和广告的顺序,那是非常……令人震惊的?

4个回答

不太可能使用麦克风收听

未经同意偷听

虽然使用麦克风收听收集数据在技术上是可行的,但也有一些反对理论的东西。统一的因素是秘密监视对话被认为是不道德的,甚至可能是非法的。被发现此类行为会在很长一段时间内破坏任何公司的声誉,这使得它不太可能发生。

一个人最终会被抓住,因为:

  • 如果设备从麦克风发送未处理的音频,则会导致显着的网络流量。
  • 如果设备通过语音识别处理音频,则会导致显着的处理器活动。
  • 很多人都在对流程和网络协议进行逆向工程。

当有更好和合法的选择时,是否值得?不记录离线对话的数据源已经不堪重负,后面会解释。

为了支持这一推理,Android 和 iOS 上的网络流量无法与 Wandera 的实验中的 Hey Siri 和 OK Google 相提并论,在Wandera 的实验中,他们系统地向设备播放宠物广告和静音,并比较它们的指标。(谢谢,TCooper!)

在检查结果后,我们没有发现任何迹象表明我们的手机正在激活麦克风或传输数据以响应声音。数据消耗和电池消耗变化很小,在大多数情况下,根本没有变化。

您已允许收听您的来源

Alexa、Siri 和谷歌语音搜索等麦克风数据也有合法来源。这些并不是一直在监视你,而是使用语音识别——这只是一个取代搜索栏的语音界面。当此类服务被意外激活时,确实会出现一些问题

记录一切的最接近的例子是2015 年的三星智能电视,当时他们的隐私政策明确规定:

请注意,如果您的口语中包含个人或其他敏感信息,则该信息将包含在通过您使用语音识别捕获并传输给第三方的数据中。

虽然隐私政策中提到了这一点,但引起了轩然大波,以至于今天他们的隐私政策发生了变化,他们只发送与语音命令相关的录音,就像其他人一样:

语音信息:当您启用此功能并使用语音命令控制服务或联系我们的客户服务团队时,我们在服务器上制作和存储的您的语音录音。

如果您没有仔细阅读 EULA 或隐私政策,也可能不了解所使用的法律术语,收集的数据也可能会以您可能不知道的方式使用。


替代解释

以下机制/现象既存在又相互补充/加强。

互联网比你更了解你

每个人在网上冲浪时都会被不断跟踪。跟踪 cookie 可以跨多个站点识别此人并建立联系。搜索引擎上的搜索被保存并连接(无论它们是使用语音识别输入的)。仔细分析购物行为,将使用会员卡自愿提供的数据和非自愿留下的数据联系起来。

所有这些数据都可能发生很多事情。它可以出售,与来自其他来源(匿名或不匿名)的数据连接,并使用算法进行分析。结果可以再次出售。这使广告商能够找到精心挑选的目标群体。这种关系甚至不必像“购买工具的人很快就会购买建筑材料”那样直接,但数据可能会揭示出许多陌生的联系。这在 Hannah Fry 的著作Hello World: How to be Human in the Age of the Machine (2018) 中通过许多示例进行了详细解释。

最重要的是,广告商可以在您不听您的意见之前,通过多种方式对您的潜在未来需求做出良好的、有根据的猜测。这就是您真正获得令人惊讶的相关广告的方式。

确认偏差

你在白天谈论数百件事。同样,您可能会看到数百个广告。大多数广告都是完全不相关的,而且是关于你没有谈论过的话题,所以它们很容易被忽略。但是,当您偶尔看到有关您一直在讨论的主题的广告时,它就会开始困扰您,留下怀疑。

每次发生这种情况时,你都会越来越确信肯定有人在听你的谈话,而你的手机是你最亲密的朋友,甚至是你带去厕所的第一个嫌疑人。

这很容易通过您的智能手机休假来测试 - 除非它粘在您身上。如果它对您如何看待有关您正在讨论的主题的广告没有任何影响,那么它一定是您随身携带的麦克风之外的其他东西。

前段时间我在这个话题上进行过实验,选择一小部分看似合理的产品,验证它们没有出现在我的广告中,然后大声(口头,而不是电子)广泛地讨论随机选择的一半产品参与同一个实验的朋友,小心不要讨论其他的。

一段时间后,我们也在网上搜索了其中的一半,并查看了结果。

你可以在这个问题上运行你自己的测试,采用相同的协议这应该可以帮助您弄清楚问题所在。

到目前为止我自己的结论(TL;DR没有任何进展):

显而易见的

如果您使用 Siri 或 Alexa 或其他任何搜索词,则搜索词最终会出现在 Google Ads、Amazon 等中,但速度不同。

一旦你明确地在互联网上搜索某样东西,所有的赌注都被取消了,各种支持广告的公司将与所有广告商共享你的数据(所以希望在亚马逊上买东西并在 Facebook 上找到它,即使这很烦人——我已经买了东西,大声哭泣!)。

不太明显

似乎会发生(但我们没有可靠的数据来评估置信度),即使您没有主动搜索该术语,并且连接互联网的监听设备就在附近,正在监听激活短语。

这多少有点道理。设备正在“思考”:“‘亲爱的’是‘嘿谷歌’吗?不是。” “是,‘嘿谷歌’怎么样?没有。” “‘一杯不错的伯爵茶’是‘嘿谷歌’吗?不是。” - 但要做到这一点,“伯爵茶”很可能会进入公司服务器以调整和验证语音识别,而其他一些公司应用程序有时可能会在数据库中寻找线索。

通常,除非话语与激活提示匹配,否则声音片段不会传输到公司服务器。如@Tim 所述,可能是“意外激活”的情况。但通常制造商保留下载“选定的声音片段”的权利”(例如,我从左耳中抽出这个:只要达到“嘿,你!”的识别阈值的 90%,而没有达到设备激活所需的 99%,就说“Kaiju”。这允许制造商调整设备,使其对“Kaiju”等词具有更强的拒绝能力)。

此外,从非常规来源或通过非常规手段“收听”和解码信息将产生巨大的成本,而获得的优势很小,并且存在疏远客户群和/或招致诉讼的非常现实的风险。在我看来,这似乎不值得广告商花时间。

最后,您对给定项目的“倾向”可能取决于一些复杂的人口统计。例如,您谈论与您的朋友(住在附近等)购买Foobaz。一旦买了你的 Foobaz,就在一群人中,Foobaz 的销售额刚刚上升了一个。因此,他的数据被作为“比一般人更有可能购买Foobaz的人”出售。

从您朋友的角度来看,他与您谈论了一个 Foobaz,第二天 bam!,他在 Google Ads 上提供了一个!

这就是为什么在测试中选择一篇你从未想要的文章很重要,并且永远不要与任何人讨论它(另外,当心恶作剧的朋友:-))。

并不总是那么明显

每周都会向我宣传很多新产品。通常我不会注意到它们,除非是一种非常低级的麻烦,因为我并没有远程考虑它们。

但只是偶然,可能会出现一些流行的产品,我在其他地方看到了,我和某人谈论过,或者只是碰巧想到了。则广告出现时,我会感到震动并注意到它,并记住(这是“巴德-迈因霍夫效应”的一种形式)。

你周围的其他人可能已经“泄露了信息”。

例子...

你和你的配偶谈到了一个假期。您的配偶没有提及,但做了一些研究,例如使用共享计算机,甚至可能使用您的手机,使用他们自己的设备并以某种方式登录您的帐户,或使用相同的 IP 地址。

广告商现在知道了一些兴趣(他们可能认为您是唯一的兴趣,他们可能并不确切知道,或者他们甚至可能知道您的配偶是感兴趣的人!)。现在他们正在为你宣传那个假期。

正如媒体报道的那样,Facebook 确实记录了 Messenger 的麦克风:https ://newatlas.com/computers/facebook-not-secretly-listening-conversations/

在这篇文章中,他们谈到了被窃听并传输给人类的信使应用程序对话,以检查人工智能是否正确转录。
调用的原因是当用户使用语音转录时,AI 会听。

对话也可以在没有用户要求的情况下被记录的事实被拒绝了。因为他们记录的事实可以用于广告目的。

但允许怀疑,因为该过程意味着许多参与者,每个参与者的控制不是 Facebook 的主要关注点(就像我们过去看到的那样)