我有一个带有标签TRUE或FALSE每个人的数据集,但每个人都有多个与之关联的文档(电子邮件和文档)。
现在,我在一个单词包上使用随机森林分类器,该单词包由每个人放在一起的所有文档中的所有单词组成(这样我就有一行包含所有单词和一个标签)。它的性能相当不错,但我想知道你们是否对我如何使用单独文档的信息有一些建议。
当我尝试查找有关此的信息时,我只遇到了多标签分类,这是完全相反的问题:每个文档有多个标签,而不是每个标签有多个文档。
我有一个带有标签TRUE或FALSE每个人的数据集,但每个人都有多个与之关联的文档(电子邮件和文档)。
现在,我在一个单词包上使用随机森林分类器,该单词包由每个人放在一起的所有文档中的所有单词组成(这样我就有一行包含所有单词和一个标签)。它的性能相当不错,但我想知道你们是否对我如何使用单独文档的信息有一些建议。
当我尝试查找有关此的信息时,我只遇到了多标签分类,这是完全相反的问题:每个文档有多个标签,而不是每个标签有多个文档。
你为什么不创建一个人 ID 并将其添加到你的模型中?
如果我理解正确,你会这样做:
,
每一行在哪里是每个人的合并文档和是真/假的向量,对吧?
你可以试试:
,
每一行在哪里现在只有一个文档,并且是每个人的 id 向量(因此是一个因素)。
也许值得尝试一下。