高维模式匹配问题的方法

数据挖掘 r
2022-03-06 09:04:43

我提前道歉,因为我是新手。我搜索了互联网并尝试了各种过程,但似乎没有任何工作或解决这种情况。

我有一个包含 30,000 个交易和 500,000 个项目的数据集。事务的平均项目大小为 50。数据集很稀疏,因此必须将支持数设置得非常低。此外,规则中的项目数量越多,规则就越有价值。

我尝试在 arules 中运行它,但在超过 64 GB RAM(机器的限制)后测试失败。我已经尝试将项目和事务减少到更小的子集,但仍然达到了这个内存限制。

最终,我正在寻找通过选择项目来聚集大量相似账户的方法,并为从这些集群中选择的各种下一个项目产生信心和提升。

我的问题:是否有其他更有效的方法可以做到这一点,或者其他方法可以考虑?

谢谢你。

1个回答

根据以下关于StackOverflow的讨论,当数据集中的变量之一是意外类型(例如, afactor而不是 a character时,可能会发生您所描述的情况: https ://stackoverflow.com/ q/7246412/2872891

此外,考虑使用bigmemory已接受答案中推荐的 package 或类似的包进行大数据分析。对于后者,请参阅CRAN Task View High-Performance and Parallel Computing with R的“Large memory and out-of-memory data”部分。

最后,补充一点。有一个R 包的生态系统,围绕arules包构建,其中包括算法(arulesNBMiner)、应用程序(arulesSequencesarulesClassify)和可视化(arulesViz)的支持包。您可能已经意识到这一点,但为了以防万一和完整起见,我决定包含这个众所周知的事实。