如何识别无效的在线调查回复?

机器算法验证 分类 民意调查
2022-03-29 00:03:25

我有一组大约 500 份对在线调查的回复,该调查提供了完成的动力。虽然大多数数据似乎是有效的,但很明显,有些人能够绕过(不充分的)基于浏览器 cookie 的重复调查保护。一些受访者显然是随机点击调查以获得奖励,然后通过几种方法重复该过程。我的问题是尝试过滤无效响应的最佳方法是什么?

我所掌握的信息仅限于:

  • 完成调查所需的时间(开始和结束的时间)
  • 每个受访者的 IP 地址
  • 每个受访者的用户代理(浏览器标识符)
  • 每位受访者的调查答案(调查中超过 100 个问题)

无效响应的最明显迹象是(按开始时间排序)将有一组全部来自相同 IP 地址或相似 IP(共享相同的前三个八位字节,例如 255.255.255.*),它们全部完成在比快速连续的总平均时间短得多的时间内。

有了这些信息,就必须有一种深思熟虑的方法来从其他调查人群中剔除那些利用调查来获得激励的人。我知道这里社区的某个人会对如何解决这个问题有一个有趣的想法。只要我确信我已经摆脱了大部分无效回复,我愿意接受误报。谢谢你的建议!

1个回答

1) 标记所有具有重复 IP 地址的响应。为此目的创建一个新变量——比如 FLAG1,它的值为 1 或 0。

2) 根据常识(例如,每个问题少于 1 秒)和响应时间直方图的帮助,选择一个阈值以获得不可能的快速响应时间——使用另一个变量 FLAG2 再次标记比该阈值更快的人。

3)“一些受访者明显随机点击...” - 显然您可以手动识别一些作弊的受访者。按响应时间对数据进行排序,并查看最快的 5% 或 10%(25 或 50 个受访者的数据)。手动检查这些受访者并使用 FLAG3 标记任何“明显随机”的受访者。

4) 通过创建一个不一致的分数来应用 Sheldon 的建议——每个不一致得 1 分。您可以通过创建一个新变量来识别每对冗余项的不一致,然后在这些变量之间进行添加来做到这一点。你可以保持这个变量不变,因为更高的不一致分数显然对应于更高的作弊概率。但是一个合理的方法是标记那些超过通过检查直方图选择的截止值的人——称之为 FLAG4。

在每个 FLAG1-4 上被标记的任何人都极有可能作弊,但您可以根据您想要的任何 FLAG1-4 加权方案将标记的人放在一边进行单独分析。鉴于您对误报的容忍度,我将消除标记为 FLAG1、FLAG2 或 FLAG4 的任何人。