数据挖掘 - 高维模式匹配问题的方法 - 吾爱随笔录

高维模式匹配问题的方法

数据挖掘 r

2022-03-06 09:04:43

我提前道歉，因为我是新手。我搜索了互联网并尝试了各种过程，但似乎没有任何工作或解决这种情况。

我有一个包含 30,000 个交易和 500,000 个项目的数据集。事务的平均项目大小为 50。数据集很稀疏，因此必须将支持数设置得非常低。此外，规则中的项目数量越多，规则就越有价值。

我尝试在 arules 中运行它，但在超过 64 GB RAM（机器的限制）后测试失败。我已经尝试将项目和事务减少到更小的子集，但仍然达到了这个内存限制。

最终，我正在寻找通过选择项目来聚集大量相似账户的方法，并为从这些集群中选择的各种下一个项目产生信心和提升。

我的问题：是否有其他更有效的方法可以做到这一点，或者其他方法可以考虑？

谢谢你。

1个回答

根据以下关于StackOverflow的讨论，当数据集中的变量之一是意外类型（例如， afactor而不是 a character）时，可能会发生您所描述的情况： https ://stackoverflow.com/ q/7246412/2872891。

此外，考虑使用bigmemory已接受答案中推荐的 package 或类似的包进行大数据分析。对于后者，请参阅CRAN Task View High-Performance and Parallel Computing with R中的“Large memory and out-of-memory data”部分。

最后，补充一点。有一个R 包的生态系统，围绕arules包构建，其中包括算法（arulesNBMiner）、应用程序（arulesSequences、arulesClassify）和可视化（arulesViz）的支持包。您可能已经意识到这一点，但为了以防万一和完整起见，我决定包含这个众所周知的事实。

其它你可能感兴趣的问题

上一篇NB 包装器是否考虑特征子集大小？下一篇弱估计器在模糊分类器上的线性组合？