公开输入您的电子邮件地址时,一种做法是替换.
为 textdot
和@
with text at
。我认为原因是这样的自动电子邮件收集机器人不会那么容易地匹配您的地址。我仍然看到使用它的更新网站。
但是,这种做法并不是很难通过程序来解决,并且已经存在了十多年(截至 2013 年)。任何从事电子邮件收集业务的人都有足够的时间来更新他们所有的机器人来处理这个问题。是否还有机器人无法处理这个问题?为什么?
今天还有什么理由使用这种修饰吗?
公开输入您的电子邮件地址时,一种做法是替换.
为 textdot
和@
with text at
。我认为原因是这样的自动电子邮件收集机器人不会那么容易地匹配您的地址。我仍然看到使用它的更新网站。
但是,这种做法并不是很难通过程序来解决,并且已经存在了十多年(截至 2013 年)。任何从事电子邮件收集业务的人都有足够的时间来更新他们所有的机器人来处理这个问题。是否还有机器人无法处理这个问题?为什么?
今天还有什么理由使用这种修饰吗?
要理解这一点,我们必须了解爬虫如何找到电子邮件。在远离技术的同时,基本思想是这样的(当然,今天的算法比这更聪明):
@
在页面中查找。@
?@
直到到达空格或行首。.
和它后面的东西,直到你到达@
。.
直到到达行尾或空格。现在,一个简单的对策是替换@
withat
和 the .
with dot
。最直观的对策是教爬虫at
实际上是@
. 好吧,事情没那么简单。采取以下文本:
我们爬进阁楼,发现了一块点缀着的木头。请给我们发电子邮件: gmail dot com 的 adnan。
现在让我们在上面运行我们的新爬虫。首先它会找到at
in attic
,然后它会找到dot
in dotted
。生成的电子邮件将是the@ticandfounda.ted
,然后它将找到第二封电子邮件adnan@gmail.com
。然后垃圾邮件发送者开始教爬虫如何查找某些域、忽略空格、考虑空格、考虑某些域名等。
然后我们开始使用图像,垃圾邮件发送者使用 OCR。我们开始使用 JavaScript 技巧、插入评论、URL-encide 等,垃圾邮件发送者总是找到绕过它们的方法。这是一场比赛。
话虽如此,最基本的技术通常会给出足够好的结果(显然,在世界上的某个地方,该链接是NSFW。我个人不同意),并且越模糊,得到的结果就越好。
因此,直接回答您的问题:在公共文本的电子邮件地址中使用“点”和“at”仍然有用吗?是的,我认为是这样,至少在某种程度上是这样。但是这个解决方案已经存在了足够长的时间,我们可以假设一些爬虫已经找到了解决它的方法。
我的建议?要么使用一些花哨的高级 munger,要么只使用图像。
在我看来,电子邮件混淆(任何形式)是有史以来最糟糕的想法之一。
任何用户界面(基于 Web 或任何其他)的首要关注点是其用户的便利性和安全性。垃圾邮件机器人不是用户,因此它们不值得考虑或努力。
逻辑如下:
电子邮件混淆对合法用户来说是一种麻烦。用户将被迫在他们的邮件地址提示中手动输入电子邮件地址,而不是简单地单击 mailto 链接。
1.a. 即使这本身也可能会阻止用户联系预期的地址——他们会去其他地方简单地避免繁琐的交互。
1.b。在此过程中输入错误但相似的地址从而将可能重要的邮件发送到某些错字诈骗邮箱的机会非常高。
垃圾邮件发送者已经知道大多数现有的合法电子邮件地址。迄今为止,我遇到的每个邮箱(这是相当多的邮箱)都定期收到一定量的垃圾邮件。这就是所有现代邮件服务器和客户端都带有垃圾邮件过滤器集成的原因,在大多数情况下,这非常有效。
简而言之,只需使用普通的“mailto:”链接,不要不必要地惹恼您的用户。
从它的概念开始,我就从来没有理解过范式。我们只是剥夺了垃圾邮件对抗软件的必要数据。如前所述,在解析器中添加“at”“dot”也很简单。
我实际上会敦促其他人。放开地狱吧。使用您的电子邮件并为此使用任何电子邮件。我什至在 10 年前左右写了一个机器人,它一页一页地产生无限的随机电子邮件。如果爬虫命中它,它将永远爬取不存在的电子邮件。
我们不应该减少垃圾邮件机器人必须处理的电子邮件。我们应该增加数量,从而反过来资源需求,因此运行垃圾邮件发送者的成本会变得更高,垃圾邮件在经济上变得不那么可行。
在选择邮件服务时,我们应该考虑垃圾邮件过滤器的质量,以便它们在垃圾邮件不断受到伤害的同时获得经济利益。
我们今天拥有许多十年前不存在的工具。DKIM、SPF、reverse-PTR、黑名单等等。垃圾邮件的吸引力越来越小。我们应该推动它。让它处理负载,而不是我们自己。
我相当怀疑它是否曾经有用过,并且希望电子邮件收割者甚至在人们天真地使用它之前就已经在扫描这种混淆了。如果我参加那场比赛,我当然会。
我们自己的测试还表明,垃圾邮件很快就会到达一个根本没有在网络上公开的电子邮件地址,它很可能是从受感染机器上的收件人地址簿和邮件文件夹中收集的;混淆电子邮件地址通常充其量只会延迟不可避免的事情,而不会真正阻止它。