每个标记数据点具有多个文档的文本分类

数据挖掘 分类 nlp 多实例学习
2022-02-24 23:50:50

我有一个带有标签TRUEFALSE每个人的数据集,但每个人都有多个与之关联的文档(电子邮件和文档)。

现在,我在一个单词包上使用随机森林分类器,该单词包由每个人放在一起的所有文档中的所有单词组成(这样我就有一行包含所有单词和一个标签)。它的性能相当不错,但我想知道你们是否对我如何使用单独文档的信息有一些建议。

当我尝试查找有关此的信息时,我只遇到了多标签分类,这是完全相反的问题:每个文档有多个标签,而不是每个标签有多个文档。

1个回答

你为什么不创建一个人 ID 并将其添加到你的模型中?

如果我理解正确,你会这样做:

y=βX
,

每一行在哪里X是每个人的合并文档和y是真/假的向量,对吧?

你可以试试:

y=βX+γz
,

每一行在哪里X现在只有一个文档,并且z是每个人的 id 向量(因此是一个因素)。

也许值得尝试一下。