我是数据科学的新手,在 R 中有 200,000 行和 50 列的数据集中查找集群时遇到问题。
由于数据同时具有数值变量和名义变量,因此使用欧几里德距离测量的 K-means 等方法似乎不是一个合适的选择。所以我求助于接受距离矩阵作为输入的 PAM、agnes 和 hclust。
daisy 方法可以处理混合类型的数据,但是距离矩阵太大了:200,000 乘以 200,000 远大于 2^31-1(R 3.0.0 之前的向量长度限制。)
昨天发布的新 R 3.0.0 支持长度超过 2^31-1 的长向量。但是 200,000 x 200,000 的双矩阵需要大于 16Gb 的连续 RAM,这在我的机器上是不可能的。
我阅读了有关并行计算和 bigmemory 包的信息,但不确定它们是否会有所帮助:如果我使用的是 daisy,它将生成一个无论如何都无法放入内存的大矩阵。
我还阅读了有关采样的帖子: 采样在“大数据”时代是否相关?
那么在我的情况下,对数据集使用抽样,对样本进行聚类然后推断整个数据集的结构是否相关?
你能给我一些建议吗?谢谢!
关于我的机器:
R 版本 3.0.0 (2013-04-03)
平台:x86_64-w64-mingw32/x64(64位)
操作系统:Windows 7 64 位
内存:16.0GB