如何检测数据中的坏人?

数据挖掘 分类 聚类 预测建模
2022-03-08 10:06:24

我正在努力寻找一种方法来确定一个人是“不好”还是“好”。

关于我想要完成的事情的一点点,我有一个数据集,用于支付给定日期的支票或退回支票的违规行为,如果有退回支票,则表示没有这样的帐户。

如果他们有按时间顺序支付和反弹的模式,那么他们正在做一些可疑的事情,比如玩系统游戏。但是,如果他们有付款、退回、付款,并且在那之后几乎没有退回,那么最初的退回可能是人为输入错误。

我想使用数据集来确定谁是有模式的“坏人”,例如。支付,弹跳,支付,弹跳。

这是我的数据集的示例:

person     state date                           status  bounce_code   
A           NY  23-DEC-15 06.27.08.000000000 PM Paid    
A           NY  23-DEC-15 06.12.58.000000000 PM Paid    
A           NY  18-DEC-15 10.14.39.000000000 AM Return  R03
A           NY  15-DEC-15 04.16.58.000000000 PM Return  R03

原始数据集包含数千人以及他们的付款和退回历史。

一个想法是分析每个人,看看他们是否符合“模式”(付款、退回、付款、退回),如果符合,我会将他们标记为“不好”的人。

请让我知道这是否令人困惑,我愿意接受有关如何解决此问题的建议。

1个回答

我将首先查看每个人的跳出率分布。该分布将提供一些关于什么可以被视为“正常”跳出率的详细信息,以及您将在哪里画一条线来表示极端跳出率,这意味着“坏”。此外,您还可以查看平均跳出率(将跳出率除以任期),并按任期查看这些平均值。这可能表明不同的阈值可能适用于不同任期的客户。例如,如果客户是新客户(活动的第一个月),那么即使是适中的跳出率也可能意味着“差”。

其他指标(例如退回与有效付款的比率、退回之间的时间)也可能很有用。

一旦确定了一组初始阈值,我将根据这些阈值仔细审查一些被确定为“不良”的客户,以确保没有太多误报。商业观点(来自那些将使用此信息做出决策的人)将非常适合纳入本次审查。