如何使用机器学习检测广告业务中的欺诈行为?

人工智能 机器学习 楷模 应用
2021-11-07 07:31:44

我是这个世界的初学者。我仍在学习机器学习和人工智能的基础知识,但我手头有一个问题,我不确定可以应用哪种技术或算法。

我正在研究广告中的点击欺诈检测。我需要使用 ML 预测欺诈并学习新的欺诈。

我拥有的数据集是来自 adserver(服务提供商)的视图和点击日志。此数据有一些字段,其中很少列出如下:

"auction_log_bid_id": null, 
"banner": 9407521, 
"browser": 0, 
"campaign": 2981976, 
"city": 94965, 
"clickword": null, 
"content_unit": 4335438, 
"country": 1, 
"external_profiledata": {}, 
"external_user_id": null, 
"flash_version": null, 
"id": 6665230893362053181, 
"ip_address": "80.187.103.98", 
"is_ssl": true, 
"keyword": "string"
"mobile_device": -1, 
"mobile_device_class": -1, 
"network": 268, 
"new_user_id": 6665230893362118717, 
"operating_system": 14, 
"profile_data": {}, 
"referrer": null, 
"screen_resolution": null, 
"server_id": 61, 
"state": 7, 
"target_url": "string"
"timestamp": 1551870000, 
"type": "CLICK_COMMAND", 
"user_agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 12_1_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/16D57", 
"user_id": null, 
"view_log_id": null

还有其他领域。

我需要分析这些日志以找到可能的欺诈模式,但我不确定从哪里开始以及使用哪种技术。例如监督、无监督的半监督或强化学习。

2个回答

我可以给你 0.02 美元的欺诈检测费用。

  1. 阅读有关 Equifax 漏洞的所有信息并寻求保护您的数据
  2. Benfords Law 将是一个很好的起点
  3. 如果您可以隔离非人为一致的日志活动,如果您的“ip_address”、“id”和/或“timestamp”都显示活动之间恒定的 3 秒间隔,或者它们之间始终是 3 到 6 秒之间的随机选择。

如果您计划投入 ML 或 Ai 所需的时间和资源,则需要将“好数据”隔离为训练数据并在此基础上训练您的模型。也许您可以获得已知的前 10 名客户的 IP 地址并将其包括在内。

然后开始用它作为你的样本数据进行训练,并保持你的测试数据分开。

我敢肯定还有更多,但我需要了解所提供信息的背景,包括您正在寻找哪种欺诈、您尝试过什么或他们认为存在欺诈的原因。

根据您拥有的数据类型,有几种不同的方法可以解决此问题。

如果您有标签或可以将正常数据与欺诈数据分开,则可以执行二进制分类,或者更有用的异常检测。

在异常检测(现在通常通过自动编码器完成)中,您在正常数据上训练模型,因此它学习该“信号”的压缩表示,从那里它将能够检测到任何不符合学习表示的样本(理论上)。

这是 keras 教程的链接:link