一类文本分类

数据挖掘 深度学习 nlp 文本分类
2022-03-16 00:36:13

所以我有一个特定的用例,我的同事多年来保存了数千篇被认为是“好”的文章,还有数十万篇被认为是坏的文章,他们没有保存!

我的目标是训练一个 NLP 深度学习模型来检测哪些文章是好的,哪些是坏的。因为我没有“坏”文章,所以我不能使用二元分类。

所以我的问题是:1-一类文本分类是否适合这项任务?1.1-如果是,请让我知道如何在 NLP 的上下文中做到这一点。2-此用例是否有其他解决方案或建议?

PS 我找到了一些类似用例的研究和代码,比如异常检测和欺诈检测,但是这个用例的性质是不同的。因为首先我有文本文档,而我发现的是表格数据。其次,我有成千上万个被标记为“好”的文档,其中数十万个被标记为“坏”并且没有保存在数据库中。但在异常检测和欺诈检测或其他类似用例的情况下,大部分数据都被标记为“良好”,因此我们正在寻找例外情况。

我真的很期待您的回答、建议和想法,我非常愿意讨论。谢谢你。

1个回答

既然您提到了深度学习,一种选择是嵌入文档然后对文档进行聚类。

每个集群都可以标记为“好”或“不好”。标记可以手动完成,也可以通过使用现有标签投票自动完成(例如,如果大多数文档是“好”,那么整个集群都是“好”)。

训练后的区域也可以用于预测。