我有 40000 行医疗保健领域的文本数据。数据有一列用于文本(2-5 个句子),一列用于其类别。我想将其分为 300 个类别。有些类别是独立的,而有些则有些相关。类别之间的数据分布也不均匀,即一些类别(大约 40 个)的数据较少,大约 2-3 行。
我附上了每个类/类别的日志概率。(或课程分布)在这里。
我有 40000 行医疗保健领域的文本数据。数据有一列用于文本(2-5 个句子),一列用于其类别。我想将其分为 300 个类别。有些类别是独立的,而有些则有些相关。类别之间的数据分布也不均匀,即一些类别(大约 40 个)的数据较少,大约 2-3 行。
我附上了每个类/类别的日志概率。(或课程分布)在这里。
一般来说,此类问题的一个不错的起点是使用简单的词袋模型的朴素贝叶斯 (NB) 分类。这里有一些幻灯片将 NB 描述为应用于自然语言处理。这种方法没有什么特别花哨的,但它很容易实现,并且会给你一个扩展的起点。
一旦您发现了一些假设您的特征和输出标签之间独立的初步结果,您可能会对模型的弱点有更好的了解。从那时起,您可以应用一些特征工程(可能是TF-IDF)以及一些后处理来处理分配给相关类别的样本。