每次观察的不同行数的模型

数据挖掘 预测建模 特征选择 特征工程
2021-09-27 12:57:34

希望在营销数据上建立一个响应模型(点击或不点击),该模型向一个人显示不同数量的报价。我不想模拟他们点击了哪些优惠,但他们是否点击了提供给他们的任何优惠。我的问题是如何处理不同数量和类型的报价?

示例数据可以是一张 id 表:

id   clicked
001       1
002       0
003       1

每个 id 的优惠数量不同:

id  discount_rate  on_amt
001     0.05       100
001     0.10       500
002     0.03        50
003     0.05       100
003     0.10       300
003     0.15       500

我是否从报价数据集中创建特征,例如平均折扣率、最大 on_amt 等?或者创建一个非常大的分箱报价类型的二进制稀疏矩阵,例如 rate_5-10_amt_0-50 1/0 和 rate_5-10_amt_50-100 1/0 ...?

还是有一个很好的模型可以处理这样的可变数据?

2个回答

您需要使用编码为分类变量(例如,one-hot 编码)创建数据的整洁版本。如果它们是连续的,则需要将它们分类为分类变量,然后进行编码。on_amtdiscount_rat

我们的团队正是针对这种情况使用了“featuretools”的深度特征合成通过这种方式,您可以通过每个功能的各种聚合(均值、最近、模式等)捕获更多信号