模型本地化:一个大模型 vs 两个小模型

数据挖掘 机器学习 分类
2022-02-06 15:58:09

假设我想预测美国和加拿大的人在一个月内购买产品 A 的可能性有多大。基本上,这是一个二元分类问题。

假设我有 200 万行购买/未购买产品(标签)的人的历史数据。一百万行数据来自美国,其他来自加拿大。

我可以通过以下两种方式构建机器学习模型:

  1. 构建一个包含 200 万行数据的模型。一个包含所有数据的模型。
  2. 模型本地化:使用美国数据构建模型。使用加拿大数据构建另一个模型。

直觉上,在我看来,选项 1 的性能总是比 2 好。因为一个模型中会有更多的数据。但在实践中,选项 2 似乎总是比选项 1 执行得更好。

我的问题是什么时候应该使用选项 2 而不是选项 1?如何做出决定?

1个回答

何时以及如何选择 1 vs 2?数据探索、理解问题和测试模型。确保使用适合您的业务问题的指标、截止水平和测试数据。

例如,如果美国和加拿大客户之间存在根本差异。然后让模型专注于每个国家的信号,而不处理另一个国家的噪音,可能会为每个国家产生更好的模型。通过进行数据探索(按国家/地区随着时间的推移和一些其他重要特征绘制购买图),您可能会说服自己,测试多个模型是值得的。

这是建模的艺术与科学。