在我处理在线订单的过程中,我开始注意到一些订单存在极端异常。在一个不受限制的字段中,出现了超过 300 万个字符的字符串,这些字符完全是胡言乱语,主要由西里尔字符组成。使用 Python 仔细检查后,发现它实际上是一个包含一千多个此类乱码字符串的列表。我挖得更深,发现了更多这样的例子,最糟糕的是超过 5800 万个字符的字符串,由 18000 多个列表元素组成。
所以我们有一个由几个字符串列表组成的字符串,这些字符串又由几个用不间断空格分隔的乱码组成。
一个例子(我添加了换行符以提高可读性):
'Р В Р’ВР
’ Р В РІР‚в„ўР вР
‚™Р’В Р В Р’В Р Р
 вЂ Р В РІР‚љРІвЂћСћР Р
’ РІР‚™Р’ВР
’ Р В Р’ Р’РВ
’ Р Р†Р РР
†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР Р
ЋРЎвЂєР В Р’ Р’ РІРР
ІР‚љРІвЂћСћР В РІРВ
‚™Р’В РРвЂ
以下是 5800 万个字符串中最常见的 10 个单词的统计:
Р 2453256
В 1926812
Р’В 895699
’В 822674
ІР399677
РІР‚в„ўР 382349
†235180
‚Р185503
‚в„ўР177792
†109266
ІвЂћСћР101490
现在取例如字符串“РІР‚в„ўР”并将其放入谷歌。我得到了超过一百万个看似随机的站点,这些字符串被插入到站点的源代码中。
我完全不知道该怎么做,有人知道这是什么吗?