我试图根据旧金山犯罪统计数据 ( https://www.kaggle.com/c/sf-crime ) 从 X 和 Y 坐标预测犯罪类别。事实证明,glmnet 拟合这个数据集的速度非常慢:当我拟合 10 万个观测值的样本时,大约需要 3 分钟。如果我将该时间外推到整个数据集(878k 观察) - 整个拟合将需要大约 25 分钟。
所以,我的问题是
- 在 R 中交互式工作的最大数据集大小是多少?
- 其他语言(Python、Java)在类似任务上的速度有多快?
- 这样的表现是否意味着我根本不应该尝试在 R 中解决如此大的问题而选择其他语言?