为什么博客垃圾邮件总是写得这么糟糕?

信息安全 垃圾邮件
2021-08-26 02:28:05

一些来自我的 Wordpress 过滤器的垃圾邮件:

如果您不完全理解某事,那么提问实际上是一件令人愉快的事情,除了这篇文章还提供了很好的理解。

感谢您提供任何其他信息丰富的博客。我还能从哪里获得以如此理想的方式编写的那种信息?我有一个项目,我现在只是在做,我一直在寻找这样的信息。

只是基本上所有的博客垃圾邮件都来自非英语国家,还是对语言做出了某种战术决定?我问是因为当我第一次看到它时,我想也许他们是真诚的,但口齿不清。

4个回答

垃圾邮件发送者通过获取现有评论并通过同义词或相关词性替换单词的词库程序运行它们来自动生成新评论。结果是一个有意义的句子,但有以母语为母语的人不会做出的单词选择:

我还能去哪里...

显然不是以母语为母语的人会写的东西,但是

她还能去哪里……

是,并且可以通过将代词和同义词简单地替换为垃圾邮件文本来转换。

这样,即使反垃圾邮件力量拥有庞大的已知垃圾邮件评论数据库,垃圾邮件发送者也可以生成无限多的新评论,这些评论似乎是英语。

我一直怀疑是这种情况,但我最近得到了证据。我现在偶尔会收到包含整个替换脚本的垃圾评论;它会是这样的:

我无法[相信/理解/理解] [伟大/卓越/惊人] [内容/信息/数据] ...

由于垃圾邮件发送者一开始可能不会说英语,因此他们没有注意到他们发送的是脚本而不是输出。

如果您检查足够大的垃圾邮件语料库,您可以很容易地找出他们使用的算法。编写一个从语料库中推导出算法的程序将是逆向工程中的一个有趣挑战。

我问是因为当我第一次看到它时,我想也许他们是真诚的,但口齿不清。

他们骗过你一次。应该不会再发生了!

评论者 TildalWave 指出:

OP 发布的示例垃圾邮件信息均未实际支持任何产品,或以其他方式宣传任何其他原因。

好吧,让我举个例子:这是几分钟前在我的博客上发表的评论:

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: jeffryshuler@2-mail.com
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

产品是在用户的元数据中推广的,而不是在评论的内容中。内容只是试图通过垃圾邮件过滤器。(我怀疑在这种情况下,文本不是现有文本的突变,而是由马尔可夫过程在有关婚礼计划的文件语料库上生成的。)

显然,反垃圾邮件的力量也在这一点上,这就是为什么这在我的垃圾邮件过滤器中。我的垃圾邮件过滤器 (akismet) 平均每提交 705 封垃圾邮件就会通过一封垃圾邮件。同样,这就是垃圾邮件发送者的目的;他们知道他们 99.9% 的工作永远不会被任何人看到。他们试图随机探索垃圾邮件过滤器中的误报空间,这个空间确实变得非常小。

这种语言可能与TidalWave 所说的 sig 有点关系

一点无害的垃圾邮件索引。

我已经在我的博客上获得了一些第一个示例。虽然看起来无害,但他们实际上是通过尝试将他们的用户帐户(以及扩展的网站链接)与博客中的关键字相关联(就像 Xander 所说的那样,这是营销)来进行垃圾邮件索引(有点“黑帽 seo ”) . 当您点击链接时,它被视为来自博客的正面点击。如果一个博客有足够的点击率来进行关键搜索,那么他们的链接将从搜索引擎中获得+1 提升,以了解关键字的相关性。大多数搜索引擎已经抓住了这一点,并试图通过其公式中的相关性匹配来防止它。

不利的一面是,如果用户因为垃圾邮件和离开(反弹)而访问您的网站,搜索引擎将惩罚您的整体排名(因为缺乏实质内容)以及您在关闭页面的排名-主题内容。虽然垃圾邮件索引中的 IT 安全性没有太大关系(除非他们使用受感染的网站作为自己的 URL),但如果有足够多的垃圾邮件发送者这样做并在排名。

关于第二个示例,它包含一个用于两次发布垃圾邮件操作的挂钩(常见于论坛中)。第一个发布者将创建一个帐户并发布一个看似合理的问题。

...我还能从哪里获得以如此理想的方式编写的那种信息?...

不久之后(20 分钟左右,甚至几天)另一位发帖者(通常来自同一个国家,如果不是相同的 IP 范围)将创建一个新帐户并发布答案,其中包含链接与原始发帖人的问题相关。由于大多数董事会版主不会删除看起来像真正讨论的内容,因此他们的垃圾邮件再次愚弄了某人……但它仍然是垃圾邮件索引。一个精心设计的营销风格示例可能是:

我在 [ http://www.example.com/]找到了 [keywords here] 的绝佳资源你应该看看,因为他们有很多与[更多关键字]相关的信息。它应该可以帮助你。

他们将做的其他一些技巧是拥有一个签名图像,它是一个透明的 GIF,只有 1 像素乘 1 像素,并包裹在<a>标签中。这会在发帖者输入其乱码内容的任何地方创建指向其他网站的链接。仅仅因为你看不到它,并不意味着它不存在。

不是那么无害 垃圾邮件威胁会影响服务器安全

一些最糟糕的垃圾邮件示例实际上会包含指向受感染站点的链接,或者它们会安装javascript 键盘记录器(我已经看到在签名行中使用SVG hack来注入恶意脚本。)键盘记录器是您需要注意的,因为它们可以捕获博客/站点管理员或其他用户的用户名和密码当他们尝试在同一页面上登录(或任何创建帐户的用户)以删除垃圾邮件时提升权限。最好的情况是,如果用户有足够的访问权限来查看其他用户,攻击者将从用户那里下载电子邮件地址列表,并将垃圾邮件发送到市场目标(营销)列表。

无辜的新用户的凭据可能会被盗,并且由于大多数人在任何地方都使用相同的密码和相同的电子邮件地址,因此他们在其他地方的帐户可能会受到损害。(脸书、领英等)

最坏的情况,因为 CMS 系统的大多数 Web 开发人员不希望有“技能”的人通过这些方法之一(可信)进入后端,他们不会做诸如检查所有管理表单的 XSS 之类的事情或 MySQL 注入(我发现我的一些开发人员在这种方法中偷工减料)。从 XSS 到 SQL 注入,它取决于盒子的安全性、用户帐户的限制(不要以 root 身份运行 Apache)以及读/写访问权限。由于他们将在 CMS 中,因此您可以假设用户可能会在他们想要的框中写入任何内容。删除数据库,用后门感染站点……现在这是一个 IT 安全问题。

我曾经工作的公司曾经做过“旋转”,作为上述答案之一,它是以编程方式进行词库搜索并替换文本。但是,我们会在多个复杂的层中进行。

  1. 我们实际上聘请了真正的美国作家来编写原版。
  2. 这些原始作者会使用我们创建的特殊语法标记他们自己的文档,标记单词、单词分组、短语和整个句子,包括他们认为适合每种情况的同义词。这意味着可以在不改变含义的情况下交换整个短语的同义词。他们将在我们创建的文本编辑软件中执行此操作,该软件将为他们提供自动完成的建议。
  3. 每次作者标记他们的文档时,我们都会将他们所有的同义词和短语存储在字典中,并使用它们为作者的下一个作业添加建议。
  4. 在机器上点击 GO,并衍生出数百/数千种变化。
  5. 为我们在菲律宾的 SEO 团队分配各种变体,他们唯一的工作就是寻找高公关博客、论坛和其他愚蠢到无法阻止我们的网站。

有趣的是,我们从未将实际发布部分自动化,因为这是机器最容易发现的事情。一个真正的人在张贴那个垃圾。

啊,为每个人破坏互联网的美好时光。

我不知道在您的情况下,您报告的文本是否是整个评论(那么它的目的是什么,无论是作为真正的评论还是作为垃圾邮件/诈骗?)。

如果不是 - 并且当垃圾邮件需要作为未来互动的前奏时 - 那么用糟糕的英语写它可能是故意的,作为对愚蠢到无法立即识别骗局的受害者的“检查”因此值得投入时间。

资料来源: 为什么尼日利亚诈骗者说他们来自尼日利亚?微软研究院的 Cormac Herley。