我研究了各种文本表示技术,如:Bag of Words、、、等。N-gram data modellingTf-idfword embedding
我想知道在涉及supervised text classification大量类别的数据建模或表示时,所有技术中哪一种最有效。
我可能有大约 40 个类别,然后大约有相同数量的子类别,最多 4 个级别。
我研究了各种文本表示技术,如:Bag of Words、、、等。N-gram data modellingTf-idfword embedding
我想知道在涉及supervised text classification大量类别的数据建模或表示时,所有技术中哪一种最有效。
我可能有大约 40 个类别,然后大约有相同数量的子类别,最多 4 个级别。
这个问题没有简单的答案。据我所知,选择主要取决于分类的类型:
我可能有大约 40 个类别,然后大约有相同数量的子类别,最多 4 个级别。
这取决于数据,但 40 类已经是一项非常具有挑战性的分类任务。为简单起见,让我们假设类上的均匀分布:随机基线准确度为 1/40 = 2.5%。当然这取决于数据,一个好的分类器会做得比这更好,但不要期望太多......
现在 4 个级别的 40 个子类别意味着 40^4 = 250 万个类别!即使假设您有足够的数据(比如平均每个类大约 10 个实例,即 2500 万个实例!),分类器也不太可能从如此大量的类中预测任何有用的东西。