我正在努力寻找一种方法来确定一个人是“不好”还是“好”。
关于我想要完成的事情的一点点,我有一个数据集,用于支付给定日期的支票或退回支票的违规行为,如果有退回支票,则表示没有这样的帐户。
如果他们有按时间顺序支付和反弹的模式,那么他们正在做一些可疑的事情,比如玩系统游戏。但是,如果他们有付款、退回、付款,并且在那之后几乎没有退回,那么最初的退回可能是人为输入错误。
我想使用数据集来确定谁是有模式的“坏人”,例如。支付,弹跳,支付,弹跳。
这是我的数据集的示例:
person state date status bounce_code
A NY 23-DEC-15 06.27.08.000000000 PM Paid
A NY 23-DEC-15 06.12.58.000000000 PM Paid
A NY 18-DEC-15 10.14.39.000000000 AM Return R03
A NY 15-DEC-15 04.16.58.000000000 PM Return R03
原始数据集包含数千人以及他们的付款和退回历史。
一个想法是分析每个人,看看他们是否符合“模式”(付款、退回、付款、退回),如果符合,我会将他们标记为“不好”的人。
请让我知道这是否令人困惑,我愿意接受有关如何解决此问题的建议。