数据挖掘 - 尝试哪些分类算法将文本数据分类为 300 个类别 - 吾爱随笔录

数据挖掘机器学习分类 nlp 文本挖掘

2021-09-28 11:33:07

我有 40000 行医疗保健领域的文本数据。数据有一列用于文本（2-5 个句子），一列用于其类别。我想将其分为 300 个类别。有些类别是独立的，而有些则有些相关。类别之间的数据分布也不均匀，即一些类别（大约 40 个）的数据较少，大约 2-3 行。

我附上了每个类/类别的日志概率。（或课程分布）在这里。概率的类先验对数（数据的对数类分布）

1个回答

一般来说，此类问题的一个不错的起点是使用简单的词袋模型的朴素贝叶斯 (NB) 分类。这里有一些幻灯片将 NB 描述为应用于自然语言处理。这种方法没有什么特别花哨的，但它很容易实现，并且会给你一个扩展的起点。

一旦您发现了一些假设您的特征和输出标签之间独立的初步结果，您可能会对模型的弱点有更好的了解。从那时起，您可以应用一些特征工程（可能是TF-IDF）以及一些后处理来处理分配给相关类别的样本。

其它你可能感兴趣的问题