来自http://www.csie.ntu.edu.tw/~cjlin/libsvm/的数据文件是 'svm' 格式。我正在尝试将其读入 R 中的稀疏矩阵表示。是否有一种简单/有效的方法来做到这一点?
这是我现在正在做的事情:逐行读取文件(800,000 行),每行单独的类、值和列。将类存储为列表,将特征存储为 .csr 稀疏矩阵(1 行),然后将特征行与之前的所有行进行 rbind。
这是非常低效的,基本上不会完成(1000 行需要 12 分钟)。我认为一旦行数开始变大,它就来自 rbinding 稀疏矩阵。
注意:矩阵 (800000*48000) 太大而无法构建然后转换为稀疏格式。
谢谢!