如何处理数据科学案例研究问题?

数据挖掘 统计数据 初学者 测试
2022-03-10 09:06:29

我最近与一家消费科技公司进行了电话面试,以寻求一个量化职位。问题基本上是,“想象一个 facebook 风格的社交网站。六个月前添加了一个名为“提及”的新功能,它允许你用 @ 符号标记你的朋友。如何确定这个功能是否成功?”

这个问题的广泛性让我有点吃惊。我首先询问该功能是否提供给网络中的每个人或一个样本,面试官回答“你决定” - 这意味着我可以采用任何一种方式进行分析。我笼统地谈论了计算该功能的每周使用情况以及每月的使用情况。我还讨论了计算产品交互的基线指标,然后比较新提及功能相对于基线统计的使用情况。总的来说,我离开面试时感觉很愚蠢,因为我对统计数据有相当扎实的掌握,但离开时看起来像个白痴。

是否有特定的统计程序来测试这样的事情?al la A/B 测试,还是某种假设测试?其次,是否有一个很好的框架来处理这些类型的开放式案例研究风格的问题?

3个回答

这个问题(我在采访中多次问过这个问题)与统计或其他定量程序完全无关。这里要问的是对整个数据挖掘过程本身的理解。首先要确定的是成功的定义是什么。所以你要问。除非被要求,否则利益相关者通常不会自愿这样做。然后,根据答案描述基于此最终目标的数据挖掘的整体过程。

个人认为这个问题不合理。您需要做的第一件事是从利益相关者那里确定什么是“成功”。这可能是增加流量、增加收入等。在不知道利益相关者如何看待成功的情况下,您可以在您拥有的任何数据中找到各种有趣的东西,而永远不会满足您的客户。对于数据科学家来说,大海捞针是很常见的,即使他们能找到一根针,也只能找到错误的针。

我相信像这样的开放式问题的目标是看看你的思维过程是什么。面试官想知道你将如何解决这个问题,你首先做什么,你考虑什么假设,最重要的是,你如何为自己的决定辩护。当你向面试官展示你的思考过程时,提出问题,有时甚至大声思考都会很有帮助。

我可能会采用类似的方法,并假设此功能是为一部分用户推出的。然后我会检查诸如用户参与度之类的指标(在这里您可以将其定义为评论数、喜欢的评论数、评论回复数或所有这些的函数)并执行 A/B 测试。根据结果​​,可以得出这个新功能是否确实成功(基于上述指标)的结论。