我们有数十万条客户记录,我们需要利用我们的数据来训练一个模型,该模型可以识别我们平台的虚假条目或不切实际的条目,要求客户输入他们的姓名、电话号码和邮政编码。
因此,我们的属性是用于训练模型的姓名、电话号码、邮政编码和 IP 地址。我们只有与真实用户相关的数据。我们可以训练只提供正标签的模型(因为我们没有负数据集来训练模型)吗?
我们有数十万条客户记录,我们需要利用我们的数据来训练一个模型,该模型可以识别我们平台的虚假条目或不切实际的条目,要求客户输入他们的姓名、电话号码和邮政编码。
因此,我们的属性是用于训练模型的姓名、电话号码、邮政编码和 IP 地址。我们只有与真实用户相关的数据。我们可以训练只提供正标签的模型(因为我们没有负数据集来训练模型)吗?
您遇到的问题是分类问题。您假设一个类“好用户”和一个不同的类“坏用户”。你想训练一个人工智能来区分这两者,但你所有的例子都是“好用户”。任何合理的人工智能都会从这些例子中得出合乎逻辑的结论:所有用户都是好用户。这是训练数据的 100% 匹配。
务实地,您可以使用 GAN 的判别性来检测异常值。
理想情况下,您现在就开始收集赝品,并对好的和坏的情况做一个正常的模型。
如果没有,您可以创建一个 GAN 以仅在真实案例上创建逼真的假货,然后从该 GAN 中获取鉴别器来标记真实案例以进行手动检查。
对于真实案例,请始终包含这些真实生活检查,这也有助于收集案例以改进模型。