人工智能 - 如何使用机器学习检测广告业务中的欺诈行为？ - 吾爱随笔录

如何使用机器学习检测广告业务中的欺诈行为？

人工智能机器学习楷模应用

2021-11-07 07:31:44

我是这个世界的初学者。我仍在学习机器学习和人工智能的基础知识，但我手头有一个问题，我不确定可以应用哪种技术或算法。

我正在研究广告中的点击欺诈检测。我需要使用 ML 预测欺诈并学习新的欺诈。

我拥有的数据集是来自 adserver（服务提供商）的视图和点击日志。此数据有一些字段，其中很少列出如下：

"auction_log_bid_id": null, 
"banner": 9407521, 
"browser": 0, 
"campaign": 2981976, 
"city": 94965, 
"clickword": null, 
"content_unit": 4335438, 
"country": 1, 
"external_profiledata": {}, 
"external_user_id": null, 
"flash_version": null, 
"id": 6665230893362053181, 
"ip_address": "80.187.103.98", 
"is_ssl": true, 
"keyword": "string"
"mobile_device": -1, 
"mobile_device_class": -1, 
"network": 268, 
"new_user_id": 6665230893362118717, 
"operating_system": 14, 
"profile_data": {}, 
"referrer": null, 
"screen_resolution": null, 
"server_id": 61, 
"state": 7, 
"target_url": "string"
"timestamp": 1551870000, 
"type": "CLICK_COMMAND", 
"user_agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 12_1_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/16D57", 
"user_id": null, 
"view_log_id": null

还有其他领域。

我需要分析这些日志以找到可能的欺诈模式，但我不确定从哪里开始以及使用哪种技术。例如监督、无监督的半监督或强化学习。

2个回答

我可以给你 0.02 美元的欺诈检测费用。

阅读有关 Equifax 漏洞的所有信息并寻求保护您的数据
Benfords Law 将是一个很好的起点
如果您可以隔离非人为一致的日志活动，如果您的“ip_address”、“id”和/或“timestamp”都显示活动之间恒定的 3 秒间隔，或者它们之间始终是 3 到 6 秒之间的随机选择。

如果您计划投入 ML 或 Ai 所需的时间和资源，则需要将“好数据”隔离为训练数据并在此基础上训练您的模型。也许您可以获得已知的前 10 名客户的 IP 地址并将其包括在内。

然后开始用它作为你的样本数据进行训练，并保持你的测试数据分开。

我敢肯定还有更多，但我需要了解所提供信息的背景，包括您正在寻找哪种欺诈、您尝试过什么或他们认为存在欺诈的原因。

根据您拥有的数据类型，有几种不同的方法可以解决此问题。

如果您有标签或可以将正常数据与欺诈数据分开，则可以执行二进制分类，或者更有用的异常检测。

在异常检测（现在通常通过自动编码器完成）中，您在正常数据上训练模型，因此它学习该“信号”的压缩表示，从那里它将能够检测到任何不符合学习表示的样本（理论上）。

这是 keras 教程的链接：link

其它你可能感兴趣的问题

上一篇使用 NLP 进行冷启动协同过滤下一篇在线反向传播迭代是否垂直于约束？