数据挖掘 - 是否可以使用生成对抗网络 (GAN) 进行文本分类？ - 吾爱随笔录

是否可以使用生成对抗网络 (GAN) 进行文本分类？

数据挖掘分类甘

2022-02-09 12:15:05

我正在研究假新闻和真新闻的分类。我确实为这个问题使用了 CNN 模型并得到了令人满意的结果。但是，我只是想知道是否有可能使用任何类型的 GAN 来解决这类问题。

3个回答

（没有在 GANS 之上从哲学上添加一些层）答案是否定的。

您可以期望生成图像、新闻等（生成逆向网络），但不会实际执行分类

只是为了辩论。有可能你可以从 GAN 中提取鉴别器，然后用它来进行粗略的分类。但是，我看不出它优于传统的 CNN 分类器。

可以使用 GAN 生成文本（参见这个问题），但在质量和多样性方面，结果比普通 LM 差。

如果你训练了一个文本 GAN，应该可以重用经过训练的鉴别器将学习转移到分类任务中，或者直接重用特征并将它们投影到新的 logit 空间中，或者对整个模型进行微调。但是，我不希望有好的结果，因为判别器学习的特征专门针对发现判别器创建的数据而不仅仅是真实数据。

如果您有大量未标记的文本数据想要从分类问题中获利，更好的选择是在数据上训练掩码语言模型，甚至更好的是使用BERT。如果您的域接近 wikipedia 数据（用于训练 BERT），那么您可以按原样使用它，并在分类任务中简单地对其进行微调。如果您的领域非常不同，那么您可以同时在带有文本数据的掩码 LM 任务和分类问题上对 BERT 进行微调。

其它你可能感兴趣的问题

上一篇2 个不同的 OOV 词可以在 FastText 中获得相同的向量吗？下一篇如何解释方差膨胀因子 (VIF) 结果？