在 Hadoop 和 Spark 等大数据平台上部署模型

数据挖掘 机器学习 数据挖掘 大数据 阿帕奇火花 apache-hadoop
2022-02-10 16:23:15

大数据平台在哪里适合数据科学/机器学习项目?

假设我有一个用于二进制分类问题的大型数据集 - 猫和狗。

现在我需要为实时分类创建一个模型

这是我的问题。

1 由于数据集很大,我可以使用任何分布式平台来更快地计算和创建模型,对吗?

2 一旦模型准备好,那么就不需要这些分布式平台了吗?还是特征提取需要它们?

1个回答

1 由于数据集很大,我可以使用任何分布式平台来更快地计算和模型创建,对吗?

是的,这就是分布式平台的用途。

2 一旦模型准备好,就不需要这些分布式平台了吧?还是特征提取需要它们?

是的,对于数据提取、对数据集进行评分和评分的特征生成(您在模型中训练的实际原因!),您仍然需要该平台,因为该数据也可能很大。