所以我有一个特定的用例,我的同事多年来保存了数千篇被认为是“好”的文章,还有数十万篇被认为是坏的文章,他们没有保存!
我的目标是训练一个 NLP 深度学习模型来检测哪些文章是好的,哪些是坏的。因为我没有“坏”文章,所以我不能使用二元分类。
所以我的问题是:1-一类文本分类是否适合这项任务?1.1-如果是,请让我知道如何在 NLP 的上下文中做到这一点。2-此用例是否有其他解决方案或建议?
PS 我找到了一些类似用例的研究和代码,比如异常检测和欺诈检测,但是这个用例的性质是不同的。因为首先我有文本文档,而我发现的是表格数据。其次,我有成千上万个被标记为“好”的文档,其中数十万个被标记为“坏”并且没有保存在数据库中。但在异常检测和欺诈检测或其他类似用例的情况下,大部分数据都被标记为“良好”,因此我们正在寻找例外情况。
我真的很期待您的回答、建议和想法,我非常愿意讨论。谢谢你。