人工智能 - 我们可以训练模型来检测只有正面标签的真实用户吗？ - 吾爱随笔录

人工智能机器学习分类特征

2021-11-04 07:21:08

我们有数十万条客户记录，我们需要利用我们的数据来训练一个模型，该模型可以识别我们平台的虚假条目或不切实际的条目，要求客户输入他们的姓名、电话号码和邮政编码。

因此，我们的属性是用于训练模型的姓名、电话号码、邮政编码和 IP 地址。我们只有与真实用户相关的数据。我们可以训练只提供正标签的模型（因为我们没有负数据集来训练模型）吗？

2个回答

您遇到的问题是分类问题。您假设一个类“好用户”和一个不同的类“坏用户”。你想训练一个人工智能来区分这两者，但你所有的例子都是“好用户”。任何合理的人工智能都会从这些例子中得出合乎逻辑的结论：所有用户都是好用户。这是训练数据的 100% 匹配。

务实地，您可以使用 GAN 的判别性来检测异常值。

理想情况下，您现在就开始收集赝品，并对好的和坏的情况做一个正常的模型。

如果没有，您可以创建一个 GAN 以仅在真实案例上创建逼真的假货，然后从该 GAN 中获取鉴别器来标记真实案例以进行手动检查。

对于真实案例，请始终包含这些真实生活检查，这也有助于收集案例以改进模型。

其它你可能感兴趣的问题