数据挖掘 - NLP 中有哪些最好的文本表示技术 - 吾爱随笔录

数据挖掘 nlp

2022-03-01 07:00:27

我研究了各种文本表示技术，如：Bag of Words、、、等。N-gram data modellingTf-idfword embedding

我想知道在涉及supervised text classification大量类别的数据建模或表示时，所有技术中哪一种最有效。

我可能有大约 40 个类别，然后大约有相同数量的子类别，最多 4 个级别。

1个回答

这个问题没有简单的答案。据我所知，选择主要取决于分类的类型：

Bag of Words（通常带有 tf-idf 权重）是一种简单但非常有效的表示，用于基于文本主题或类似主题的分类，假设类别彼此之间有合理的区别。
词嵌入是基于语义的分类的更高级选项。它们可以处理更微妙的语义关系，但需要在大型训练语料库上进行训练。使用预定义的嵌入可能是一种解决方案，但存在原始训练数据不完全适合数据集的风险。
N-gram 模型可以以多种不同方式使用，但通常在分类涉及语法和/或写作风格时选择。注意值越高 $n$ ，需要的训练语料越大，在选择时也可以考虑到这一点。

我可能有大约 40 个类别，然后大约有相同数量的子类别，最多 4 个级别。

这取决于数据，但 40 类已经是一项非常具有挑战性的分类任务。为简单起见，让我们假设类上的均匀分布：随机基线准确度为 1/40 = 2.5%。当然这取决于数据，一个好的分类器会做得比这更好，但不要期望太多......

现在 4 个级别的 40 个子类别意味着 40^4 = 250 万个类别！即使假设您有足够的数据（比如平均每个类大约 10 个实例，即 2500 万个实例！），分类器也不太可能从如此大量的类中预测任何有用的东西。

其它你可能感兴趣的问题