预测多个组中对电子邮件的总回复

数据挖掘 预测建模
2022-03-15 23:29:24

我有关于电子邮件特征的历史数据(如发送时间、长度、主题等),以及这些电子邮件的回复者——我有他们的 IP,这进一步与性别、住所、就业状况等相关联。

我的数据集示例如下所示:

# dataset 1

email_id  time_sent length  topic         respondent_ip
YH2       00:02     300     advertisement  80.121     
YH2       00:02     300     advertisement  71.231

# dataset 2

respondent_ip  gender domicile employment
80.121         man    US       employed
71.231         woman  China    unemployed

我想根据电子邮件特征预测不同“组”中有多少人可能会回复电子邮件。因此,例如,如果我在午夜发送一封电子邮件,即 300 个字符,其主题是广告,那么有多少失业女性可能会回复?

我正在努力概念化我可以在这里应用什么样的模型,甚至该模型应该具有什么样的结构。首先,因为我对这么多不同的“组”感兴趣,所以我不确定我的响应变量应该是什么。

这里的任何指针将不胜感激!

1个回答

您是否有关于有多少具有某些特征的人之前回复过电子邮件的历史数据?

如果是,那么您可以使用主题/性别/住所/就业状况(以及这些人的可选规模)作为输入特征和该组人的响应数量(或百分比)来训练模型(例如 ANN、CART)原始大小)作为结果。

如果您只对失业女性感兴趣,那么请仅使用失业女性的数据。

在任何情况下,在训练之后,您都可以向模型提供电子邮件主题、性别和就业状况(以及您的目标人数可选),然后您会得到有多少人可能会从这组人中回复的结果。