数据挖掘 - 如何检测原始级别数据中的异常？ - 吾爱随笔录

我有一个每天增长约 3000 万行的数据集。

数据架构如下：

day_hour_timestamp timestamp,
campaign_id        varchar,
creative_id        int,
uuid               varchar,
device             varchar,
country            varchar,
os                 varchar,
browser            varchar

数据集中的每条记录都是关于广告印象的信息。

例如，如果我在 2017 年 10 月 11 日 13:30 访问了某个网站上的特定广告。我将成为数据集中的一个数据点，时间为 2017 年 10 月 11 日 13:00，以及我的设备、国家/地区、操作系统、浏览器等。

我的问题是如何检测此数据集中的异常情况？列数据不正常等异常情况，例如，如果我收到的操作系统为 NULL 或浏览器为“Apple”。

我应该创建一个检查每一列的启发式方法，还是有可以应用的机器学习算法？

由于这个数据集非常大，检查每个数据点会很昂贵吗？