大数据平台在哪里适合数据科学/机器学习项目?
假设我有一个用于二进制分类问题的大型数据集 - 猫和狗。
现在我需要为实时分类创建一个模型
这是我的问题。
1 由于数据集很大,我可以使用任何分布式平台来更快地计算和创建模型,对吗?
2 一旦模型准备好,那么就不需要这些分布式平台了吗?还是特征提取需要它们?
大数据平台在哪里适合数据科学/机器学习项目?
假设我有一个用于二进制分类问题的大型数据集 - 猫和狗。
现在我需要为实时分类创建一个模型
这是我的问题。
1 由于数据集很大,我可以使用任何分布式平台来更快地计算和创建模型,对吗?
2 一旦模型准备好,那么就不需要这些分布式平台了吗?还是特征提取需要它们?
1 由于数据集很大,我可以使用任何分布式平台来更快地计算和模型创建,对吗?
是的,这就是分布式平台的用途。
2 一旦模型准备好,就不需要这些分布式平台了吧?还是特征提取需要它们?
是的,对于数据提取、对数据集进行评分和评分的特征生成(您在模型中训练的实际原因!),您仍然需要该平台,因为该数据也可能很大。