由于我的学习,我第一次接触机器学习。我收到了一堆推文,目标是按主题对它们进行分类。我真的不知道该怎么做。有没有特定的方法可以遵循?
到目前为止,我只找到了一些主题,并且正在考虑为训练数据制作一个类似 DTM 的数据框,其中不仅包含非稀疏单词出现的次数,还包含特定 N-gram 出现的次数和一个基本事实列与主题。
这是完全错误的吗?我怎么能在没有特征的情况下训练分类器?
由于我的学习,我第一次接触机器学习。我收到了一堆推文,目标是按主题对它们进行分类。我真的不知道该怎么做。有没有特定的方法可以遵循?
到目前为止,我只找到了一些主题,并且正在考虑为训练数据制作一个类似 DTM 的数据框,其中不仅包含非稀疏单词出现的次数,还包含特定 N-gram 出现的次数和一个基本事实列与主题。
这是完全错误的吗?我怎么能在没有特征的情况下训练分类器?
由于没有预定义的主题,因此该任务是无监督的:目标是将语义相似的推文分组在一起(与分类相反,分类需要训练模型以在特定类别中进行预测)。
标准的无监督方法是主题建模。在传统的 LDA 方法中,主题模型将文档分组到集群中,并且还提供给定主题的单词的概率,因此可以从模型中提取按主题的“热门单词”列表。LDA 需要主题的数量作为输入参数,但可以使用分层狄利克雷过程来避免这个问题(但它不太常见)。