我正在寻找对我的文本数据进行分类。我300 classes
每个班级有 200 个训练文档(所以60000 documents in total
),这可能会产生非常高维的数据(我们可能会查看超过100 万维)。
我想在管道中执行以下步骤(只是为了让您了解我的要求是什么):
- 将每个文档转换为特征向量(
tf-idf
或vector space model
) Feature selection
(Mutual Information
基于优选,或任何其他标准)- 训练分类器(
SVM
、Naive Bayes
或)Logistic Regression
Random Forest
- 根据训练的分类器模型预测看不见的数据。
所以问题是我使用什么工具/框架来处理这样的高维数据?我知道通常的嫌疑人(R,WEKA ...),但据我所知(我可能错了)可能没有一个人可以处理这么大的数据。还有其他我可以查看的现成工具吗?
如果我必须并行化它,我应该看看Apache Mahout吗?看起来它可能还没有提供我需要的功能。
提前感谢大家。
更新:我浏览了这个网站、R 邮件列表和整个互联网。在我看来,我的情况可能会出现以下问题:
(1) 使用 R(特别是tm包)对我的数据进行预处理可能是不切实际的,因为tm
速度会非常慢。
(2) 由于我需要使用一组 R 包(预处理、稀疏矩阵、分类器等),因此包之间的互操作性可能会成为问题,并且在将数据从一种格式转换为另一种格式时可能会产生额外的开销. 例如,如果我使用(或像 WEKA 之类的外部工具)进行预处理,tm
我将需要找到一种方法将这些数据转换为 R 中的 HPC 库可以读取的形式。我也不清楚分类器包是否会直接接收 HPC 库提供的数据。
我在正确的轨道上吗?更重要的是,我说得通吗?