数据挖掘 - 为什么在已经有 fit_transform 的情况下使用 fit？ - 吾爱随笔录

为什么在已经有 fit_transform 的情况下使用 fit？

数据挖掘 Python scikit-学习

2021-10-14 09:23:01

这是一个后续问题：scikit-learn 模型中的 fit 和 fit_transform 有什么区别？

我想知道fit当我们拥有比单独使用和单独fit_transform使用快得多时，我们为什么要使用它？毕竟，我们总是会在拟合训练数据后对其进行转换。我们对all 本身有用吗？fittransformfit

1个回答

它可能是相当罕见的需要使用fit而不是代替fit_transformsklearn转换器。尽管如此，将方法分开是有意义的：拟合转换器是学习有关数据的相关信息，而转换会产生一个改变的数据集。拟合对于 sklearn预测器仍然有意义，并且只有其中一些（特别是聚类器和异常检测器）提供组合的fit_predict.

我至少可以想到一个例子，其中安装了转换器但不（立即）转换数据，但它是内部的。在KBinsDiscretizer，如果encode='onehot'，则OneHotEncoder创建的内部实例，并且在fit离散化器的时间，编码器被安装（到虚拟数据）只是为了准备它来转换未来的数据。在这一点上转换给定的数据KBinsDiscretizer.fit将是浪费的。

最后，对您的帖子发表评论：

我们有这比单独fit_transform使用要快得多fittransform

在大多数（但不是全部）情况下，fit_transform字面上与相同fit(X, y).transform(X)，所以这不应该更快。

其它你可能感兴趣的问题

上一篇如何确定我的数据拆分是否适合我的数据大小？下一篇二进制分类和数字标签