我有关于电子邮件特征的历史数据(如发送时间、长度、主题等),以及这些电子邮件的回复者——我有他们的 IP,这进一步与性别、住所、就业状况等相关联。
我的数据集示例如下所示:
# dataset 1
email_id time_sent length topic respondent_ip
YH2 00:02 300 advertisement 80.121
YH2 00:02 300 advertisement 71.231
# dataset 2
respondent_ip gender domicile employment
80.121 man US employed
71.231 woman China unemployed
我想根据电子邮件特征预测不同“组”中有多少人可能会回复电子邮件。因此,例如,如果我在午夜发送一封电子邮件,即 300 个字符,其主题是广告,那么有多少失业女性可能会回复?
我正在努力概念化我可以在这里应用什么样的模型,甚至该模型应该具有什么样的结构。首先,因为我对这么多不同的“组”感兴趣,所以我不确定我的响应变量应该是什么。
这里的任何指针将不胜感激!