我有一组大约 500 份对在线调查的回复,该调查提供了完成的动力。虽然大多数数据似乎是有效的,但很明显,有些人能够绕过(不充分的)基于浏览器 cookie 的重复调查保护。一些受访者显然是随机点击调查以获得奖励,然后通过几种方法重复该过程。我的问题是尝试过滤无效响应的最佳方法是什么?
我所掌握的信息仅限于:
- 完成调查所需的时间(开始和结束的时间)
- 每个受访者的 IP 地址
- 每个受访者的用户代理(浏览器标识符)
- 每位受访者的调查答案(调查中超过 100 个问题)
无效响应的最明显迹象是(按开始时间排序)将有一组全部来自相同 IP 地址或相似 IP(共享相同的前三个八位字节,例如 255.255.255.*),它们全部完成在比快速连续的总平均时间短得多的时间内。
有了这些信息,就必须有一种深思熟虑的方法来从其他调查人群中剔除那些利用调查来获得激励的人。我知道这里社区的某个人会对如何解决这个问题有一个有趣的想法。只要我确信我已经摆脱了大部分无效回复,我愿意接受误报。谢谢你的建议!