我有一个系统向用户发送参与在线问卷调查的邀请,并希望使用机器学习来预测在预定义的时间(即 1 天、2 天、3 天、一周、2 天)内完成问卷的可能性周等)基于与向其发送邀请的用户相关的各种特征、调查问卷的详细信息(即他们有多长时间、他们的主题等)、其他上下文数据(一天中的时间、一年中的某天,在哪个媒体中发送邀请 - 即短信/电子邮件等)。我可以使用正面示例(用户响应的邀请)和负面示例(未响应的邀请)进行训练,但是,我不确定如何将“预定义时间”考虑到特征向量中。例如,
欢迎任何建议!
我有一个系统向用户发送参与在线问卷调查的邀请,并希望使用机器学习来预测在预定义的时间(即 1 天、2 天、3 天、一周、2 天)内完成问卷的可能性周等)基于与向其发送邀请的用户相关的各种特征、调查问卷的详细信息(即他们有多长时间、他们的主题等)、其他上下文数据(一天中的时间、一年中的某天,在哪个媒体中发送邀请 - 即短信/电子邮件等)。我可以使用正面示例(用户响应的邀请)和负面示例(未响应的邀请)进行训练,但是,我不确定如何将“预定义时间”考虑到特征向量中。例如,
欢迎任何建议!
你有数据泄露的问题。“自发送邀请以来的天数”功能包含有关该概念的所有信息。因此,将其添加为特征将阻止大多数常见分类器使用基于其他特征的规则,并会导致误导性结果。
为每个预定义的时间值复制负行将导致与您应该测试的分布不同,这需要针头问题。
请注意,即使这样,该特征也可能会泄漏信息(例如,一小部分正面将在两周内重播,而其在负面中的分布将更高,使其成为负面的良好预测器)。
如果您将有更复杂的时间表示(例如,电子邮件是在周末发送的吗?是在周末发送的回复),行的重复将更加复杂。
我会尝试不同的方向。负面行很可能对正面行的回复时间没有影响。因此,我会进行第一次研究,旨在在不使用预定义时间的情况下区分回复和无回复。
之后,仅对概念将是预定义时间的积极因素进行第二次研究,旨在找出用户已回复的影响因素。