在浏览机器学习问题时,我遇到了这个问题:
“鉴于来自 Netflix 的一个月的登录数据,例如 account_id、device_id 和有关付款的元数据,您将如何检测付款欺诈?”
现在,我将把这个问题作为一个监督学习练习来处理,并利用过去的数据作为训练数据,希望为每个样本提供响应并确定是否存在欺诈。
- 我会在这个训练数据上训练一个分类模型,目标是最小化误报(类型 I 错误),即在获得模型后,我会将概率阈值设置为低,以最小化误报。
- 我认为这些问题中的大多数通常是高度不平衡的(很少有欺诈案例),因此,我可能不会使用准确性作为性能指标来评估模型的性能(而是使用精度,或者可能是精度-召回AUC)。
现在我想知道我的方法是否正确,我的逻辑是否遗漏了什么?在过去,我解决了类似的“欺诈”问题,但是,问题是关于信用卡交易,而挑战是检测特定交易是否具有欺诈性。
因此,对于这个特定的 Netflix 问题,我不确定是否存在这样的挑战,即检测付款是否欺诈(而不是交易)是否会产生任何影响。
我很想听听其他人的想法。