我目前正在申请数据科学职位,并且必须为其中一家公司完成一项带回家的挑战。但是,我真的不明白他们想让我做什么,希望你能帮助我解释这个问题。不幸的是,由于圣诞节假期,我无法联系到公司的任何人
我有一个包含客户交易的数据集和另一个包含这些客户的年龄、国家/地区信息的数据集。现在,我被要求定义参与度的目标指标,并说明我将如何定义未参与度与参与度的客户。之后,我必须使用这个逻辑来构建一个模型来对参与和未参与的客户进行分类(他们指出由于目标指标中使用的特征而导致过度拟合)。
你会如何解释这些问题?
我是否必须先说是否 target_metric > x: 参与,然后建立一个监督模型来再次对用户进行分类?
或者
您是否会定义几个可以区分参与和未参与客户的指标,然后使用无监督模型来找到两个集群,然后再参与和未参与?
我试图使问题尽可能笼统,以避免“作弊”。我只想知道你会如何解释它们。谢谢!