NLP 中有哪些最好的文本表示技术

数据挖掘 nlp
2022-03-01 07:00:27

我研究了各种文本表示技术,如Bag of Words、、、N-gram data modellingTf-idfword embedding

我想知道在涉及supervised text classification大量类别的数据建模或表示时,所有技术中哪一种最有效。

我可能有大约 40 个类别,然后大约有相同数量的子类别,最多 4 个级别。

1个回答

这个问题没有简单的答案。据我所知,选择主要取决于分类的类型:

  • Bag of Words(通常带有 tf-idf 权重)是一种简单但非常有效的表示,用于基于文本主题或类似主题的分类,假设类别彼此之间有合理的区别。
  • 词嵌入是基于语义的分类的更高级选项。它们可以处理更微妙的语义关系,但需要在大型训练语料库上进行训练。使用预定义的嵌入可能是一种解决方案,但存在原始训练数据不完全适合数据集的风险。
  • N-gram 模型可以以多种不同方式使用,但通常在分类涉及语法和/或写作风格时选择。注意值越高n,需要的训练语料越大,在选择时也可以考虑到这一点。

我可能有大约 40 个类别,然后大约有相同数量的子类别,最多 4 个级别。

这取决于数据,但 40 类已经是一项非常具有挑战性的分类任务。为简单起见,让我们假设类上的均匀分布:随机基线准确度为 1/40 = 2.5%。当然这取决于数据,一个好的分类器会做得比这更好,但不要期望太多......

现在 4 个级别的 40 个子类别意味着 40^4 = 250 万个类别!即使假设您有足够的数据(比如平均每个类大约 10 个实例,即 2500 万个实例!),分类器也不太可能从如此大量的类中预测任何有用的东西。