这个问题在面试中经常被问到,例如每天使用 YouTube 或 Facebook 的时间分布情况如何?
如果数据不包含缺陷(例如,人们在网站上 AFK 或人们打开和快速关闭网站),我预计分布是正常的。那是错的吗?
这个问题在面试中经常被问到,例如每天使用 YouTube 或 Facebook 的时间分布情况如何?
如果数据不包含缺陷(例如,人们在网站上 AFK 或人们打开和快速关闭网站),我预计分布是正常的。那是错的吗?
在与同行交流想法时,拥有描述分布的词汇是数据科学家的一项重要技能。有 4 个重要概念和支持词汇,您可以使用它们来构建对此类问题的答案。这些是:
中心(平均值、中位数、众数) 分布(标准差、四分位间距、范围) 形状(偏度、峰度、单峰或双峰) 异常值(它们是否存在?) 根据每天在 Facebook 上花费的时间分布(FB ),可以想象 Facebook 上可能有两组人:
快速滚动浏览他们的提要并且不会在 FB 上花费太多时间的人。在 FB 上花费大量社交媒体时间的人。从这个角度来看,我们可以对花在 FB 上的时间分布做出以下声明,但需要注意的是,这需要用真实世界的数据进行验证。
中心:由于我们期望分布是双峰的(参见形状),我们可以使用众数和中位数而不是均值来描述分布。这些汇总统计数据非常适合研究偏离经典正态分布的分布。散布:由于我们预计分布是双峰的(请参阅形状),散布和范围将相当大。这意味着将需要一个很大的四分位数范围来准确描述这种分布。此外,不要使用标准偏差来描述这种分布的分布。形状:根据我们的描述,分布将是双峰的。一大群人将聚集在分布的低端,而另一大群体将集中在分布的高端。对于那些可能在 FB 上花费过多时间的人来说,也可能会有一些偏右。异常值:您可以运行异常值检测测试,例如 Grubb 检验、z 分数或 IQR 方法,以定量判断哪些用户与其他用户不同。
答案是错误的,因为您没有解释您是如何得出这个答案的。他们在面试中问这样的问题是为了看看你的想法。
回答此类问题的一种方法是说您不知道,但您可以做出有根据的猜测。让我们假设如果一个人正在访问一个网站,那么在经过一个单位时间之后,她离开该网站以的概率,她的访问将被限制为单位时间。以的概率(即她没有离开的概率乘以她将离开的概率),她的访问将被限制为个时间单位。以的概率,她的访问将被限制为个单位的时间。等等。因此这个分布的概率质量函数是. 这是几何分布。
注意:我并不是说这是正确的,但这是面试的正确答案。然后你可能会说是等的函数,这可能会使它变得复杂一点。
这类问题引发了很多值得讨论的问题。我只能代表我自己,但我想说以下几点。
您期望此分布的最基本属性是它是连续的并且具有非负支持。如果您要以离散增量测量时间(例如,测量下降到秒),您可能会对这些属性中的第一个提出质疑,但即使在这种情况下,最好将在网站上花费的实际时间视为连续时间,但随后被测量仪器离散化。
鉴于您有大量用户彼此分开操作,并且网站上的活动长度存在巨大差异(例如,YouTube 上的视频长度不同),因此可以合理地认为分布将具有平滑的密度并且将是准凹的(即单峰)。由于我们正在查看每天在网站上花费的时间量,因此分布也将在一天被截断(即,这是结果的上限)。
在网站上花费的时间可以被定义为“截断的生存过程”,因此将生存分析中的标准分布作为推测的起点是合理的。人们可以通过考虑过程的“危险函数”的可能形状来合理地推测分布。最有可能的是,危险函数会从低开始,然后随着时间的推移变得更大(即,用户在站点上停留的时间越长,就越有可能离开)。
假设一个人远离键盘或打开然后快速关闭网站,通常是不好的做法。没有特别的理由表明这些现实中的任何一个都会导致对分布的推测出现问题。我认为没有理由将它们排除在考虑之外。
现在,如果有人同意上述想法,那么对分布形状的一些合理推测将是截断的 gamma 分布或截断的 Weibull 分布。后者有一个简单的风险函数,可以设置为指数增长。最后,需要注意的是,这些只是推测。最终,如果我们想知道这些网站每天的时间分布,我们需要获取关于该结果的数据,并让数据“自己说话”。可能是标准参数分布不太适合这些数据,在这种情况下,我们可能会求助于非参数分析。