数据挖掘 - 每个标记数据点具有多个文档的文本分类 - 吾爱随笔录

我有一个带有标签TRUE或FALSE每个人的数据集，但每个人都有多个与之关联的文档（电子邮件和文档）。

现在，我在一个单词包上使用随机森林分类器，该单词包由每个人放在一起的所有文档中的所有单词组成（这样我就有一行包含所有单词和一个标签）。它的性能相当不错，但我想知道你们是否对我如何使用单独文档的信息有一些建议。

当我尝试查找有关此的信息时，我只遇到了多标签分类，这是完全相反的问题：每个文档有多个标签，而不是每个标签有多个文档。