如果从头开始,对于处理 10 到 2000 万条记录的数据集而不会减慢到崩溃点或需要几个小时才能完成,什么硬件和软件是理想的,并且成本低于5k 或10k美元?操作,如果重要的话,意味着多元回归(具有少于十二个变量的简单 OLS)、基本图形和表格。
用于处理数百万记录数据集的软硬件
数据挖掘
大数据
2022-03-15 15:03:26
1个回答
使用 vowpal wabbit 构建您的回归或分类模型。它将以您可以读取数据的速度进行训练
- 使用 pandas 和 dask 绘制图表等。您可以使用 AWS i2.8xlarge 或同等机器,一年大约需要 6,000 美元
其它你可能感兴趣的问题