我正在努力加快使用 R 的速度。我最终想使用 R 库进行文本分类。我只是想知道在进行文本分类时,人们对 R 的可扩展性有何经验。
我可能会遇到高维数据(约 300k 维)。我正在考虑使用 SVM 和随机森林作为分类算法。
R 库会扩展到我的问题规模吗?
谢谢。
编辑 1:澄清一下,我的数据集可能有 1000-3000 行(可能更多)和 10 个类。
编辑 2:由于我对 R 很陌生,我会要求海报尽可能具体。例如,如果您建议工作流/管道,请务必在可能的情况下提及每个步骤中涉及的 R 库。一些额外的指针(指向示例、示例代码等)将是锦上添花。
编辑3:首先,感谢大家的评论。其次,我很抱歉,也许我应该为这个问题提供更多背景信息。我是 R 新手,但对文本分类不太了解。我已经使用tm包对我的部分数据进行了预处理(词干提取、停用词删除、tf-idf 转换等),只是为了感受一下。即使在大约 200 个文档上,tm 也很慢,以至于我担心可伸缩性。然后我开始玩 FSelector,即使这样也很慢。这就是我制作OP的时候。
编辑 4:我刚想到我有 10 个班级,每个班级大约 300 个培训文档,实际上我正在从整个培训集中构建 termXdoc 矩阵,从而导致非常高的维度。但是如何将每个 k 中的 1 分类问题简化为一系列二元分类问题呢?这将大大减少每个 k-1 步骤中训练文档的数量(以及维度),不是吗?那么这种方法是一种好方法吗?它在准确性方面与通常的多类实现相比如何?