我有用户关于事故的报告。我想知道如何确保报告的数量足够大,以将该事故视为真正的事故而不是垃圾邮件。
我的想法是考虑特定时间间隔内的最小报告数量,例如 20 分钟内的 4 个报告足以相信该事故的存在。
我的问题是如何选择最少的报告数量和时间间隔?做出这个决定有什么逻辑吗?
我有用户关于事故的报告。我想知道如何确保报告的数量足够大,以将该事故视为真正的事故而不是垃圾邮件。
我的想法是考虑特定时间间隔内的最小报告数量,例如 20 分钟内的 4 个报告足以相信该事故的存在。
我的问题是如何选择最少的报告数量和时间间隔?做出这个决定有什么逻辑吗?
如果您要分类的唯一特征是生成给定报告的用户数量,那么这与 AI/ML 并没有太大关系。只需根据您的主观判断选择一个数字并使用它。
OTOH,如果您可以包含报告本身的详细信息(以及报告者的数量),我认为您可能能够构建一个有用的贝叶斯分类器。如果您可以考虑位置、天气、一天中的时间、记者人数等,您似乎可以将一些有用的东西放在一起。
这是一个信任级别的问题,因此您的判断是决定阈值的最佳选择。
您可以通过尝试和可视化您遗漏了多少事故(以 % 为单位)来帮助您做出决策……这可以作为良好阈值的指标。你不想扔太多。但只有你知道在这种情况下什么是好什么坏