在数据科学项目中,数据通常是经过预处理的。我们还构建、测试和选择不同的模型。模型还带有自己的预处理要求,这些要求可能因模型而异,例如,一些模型需要缩放,而另一些则不需要。
在管理将提供多个不同模型的数据集(或多个数据集)的预处理和转换时,什么被认为是最佳实践,每个模型都有自己的预处理要求?
我想知道如何使预处理足够灵活以支持多个模型,同时还可以轻松管理更改。
我最近开始使用cookiecutter 数据科学项目,该项目提倡使用临时数据集。据推测,这个临时数据集形成了一个基础集,从中构建了特定于模型的预处理。这是一种方法,但想知道什么是最佳实践。