如何根据数据集确定所需的处理能力?

数据挖掘 机器学习 数据集
2022-03-02 11:11:23

为了训练机器学习模型,计算机通常需要更多的处理能力。在这种情况下,需要一个强大的 CPU,因为它是一个大数据集,它需要更多的内存,所以而不是 CPU,GPU 是解决方案。

我们是否需要在继续之前决定使用哪个处理器?例如,一个 30000 个样本数据集是否需要这么多的处理能力?

提前致谢。

如果这个问题的任何部分不清楚,请发表评论。

1个回答

数据集(样本数、特征数)是一个变量。算法/模型的复杂性是另一个。

例如,与 4 层神经网络相比,线性回归将快得多(并且需要更少的计算能力)。

因此,在决定需要计算能力之前,您可以:

  1. 尝试使用您已经拥有的硬件(或 AWS 实例)的几个模型
  2. 根据性能和瓶颈估计需要更好的硬件(CPU / GPU)

对于非常大的数据集(比如 10 TB+),I/O 可能成为瓶颈。