在某些情况下,例如风险检测和垃圾邮件检测。Good User 的模式是稳定的,而 Attacker 的模式在快速变化。我怎样才能为此制作模型?或者我应该使用哪个分类器/方法?
如何在正数据模式快速变化的情况下设计分类器?
人工智能
分类
人工智能安全
2021-11-07 12:36:49
1个回答
预测目标(在您的情况下为行为)随时间变化的现象称为“概念漂移”。
如果您搜索该术语,您会发现几十年来有许多出版物试图解决这个问题,太多的论文无法在一个答案中全部总结。不过,这仍然是一个难题,绝不是“已解决”的问题。
想法的两个不同的广泛方向是:
- 经常在最近的训练数据上重新训练(离线)静态模型
- 使用可以从数据流中不断更新的在线学习方法,在新的标记数据可用时在线。
这个 github 页面包含大量关于信用卡欺诈检测的论文,您所描述的问题的发生是因为欺诈者改变了他们的行为以试图逃避检测。这些论文中的大多数都讨论了第一种方法的变体。基本上,其中许多论文使用多个随机森林的集合。每天都有新的标记数据可用。然后,他们通常会删除多个随机森林中最老的一个,并添加一个新的随机森林,该随机森林是根据当天可用的最新数据进行训练的。
还有一些变体,它们并不总是以固定的时间表(例如,每天)训练新模型,而是尝试使用统计测试来检测数据的统计属性何时发生变化,并且只在新模型发生变化时才训练新模型。 “必要”(由于此类更改)。
对于第二个想法,您通常会考虑使用类似随机梯度下降的方法进行学习的方法;在学习率/步长不降低的情况下,这些技术自然会慢慢地“忘记”他们从旧数据中学到的东西,并更多地关注后面的数据。
如果您有某种方法可以相对较快地获得某些实例的准确标签,您可以考虑采用类似于本文提出的方法(免责声明:我是本文的作者)。例如,在那篇论文中,假设人类专家可以相对快速地调查并获得少量交易的准确标签,并且可以利用这一点以在线方式快速学习。
其它你可能感兴趣的问题