数据科学带回家挑战问题解释

数据挖掘 分类 二进制
2022-03-01 18:49:01

我目前正在申请数据科学职位,并且必须为其中一家公司完成一项带回家的挑战。但是,我真的不明白他们想让我做什么,希望你能帮助我解释这个问题。不幸的是,由于圣诞节假期,我无法联系到公司的任何人

我有一个包含客户交易的数据集和另一个包含这些客户的年龄、国家/地区信息的数据集。现在,我被要求定义参与度的目标指标,并说明我将如何定义未参与度与参与度的客户。之后,我必须使用这个逻辑来构建一个模型来对参与和未参与的客户进行分类(他们指出由于目标指标中使用的特征而导致过度拟合)。

你会如何解释这些问题?

我是否必须先说是否 target_metric > x: 参与,然后建立一个监督模型来再次对用户进行分类?

或者

您是否会定义几个可以区分参与和未参与客户的指标,然后使用无监督模型来找到两个集群,然后再参与和未参与?

我试图使问题尽可能笼统,以避免“作弊”。我只想知道你会如何解释它们。谢谢!

1个回答

第二个,但不要停在那里。

首先,您指定是否 target_metric > x: 参与是错误的,您必须让数据告诉您这个 x,而不是您选择它。第二个看起来不错,我会从那个开始,做一些广泛的分析,然后才开始凭经验找到 x。如何?就蝙蝠而言,您可以将其作为不同 x 的最小化问题,并找到具有最大纯度/类之间分离的问题。

为什么不停在那里?没有对错之分,如果您在理论上有一些合理的方法但在实践中失败了,我肯定会包括它并详细说明它,讨论它等等......