假设我有一个数据集,显示每天有人使用我开发的移动应用程序的次数。该数据集(排序后)如下所示:
[2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 7, 12, 15, 15, 15, 15, 15, 15]
我想返回一个数字,我敢打赌用户明天将使用我的应用程序的次数或非常接近它的次数。(假设我不关心这些数字在过去 21 天内最初报告的顺序。我只想预测并返回一个仅基于幅度的数字。)
作为查看此数据集的人类分析师,我会押注数字4。原因不仅是有很多自然出现的 4,而且还有很多非常接近 4 的数字。
是否存在将从上述数据集中返回 4 的度量或现有算法?
我尝试过的事情:
该数据集的众数为15。虽然这很有趣,但我认为 15 在这个集合中是一个异常值,因为接近 4 的值比 15 多。
该数据集的平均值为7.5。我们越来越接近 4,但最接近平均值的值 - 7 - 只出现一次。
该数据集的中位数为5。现在非常接近,但仍然不是我想要的,因为只有少数出现 5。
第一个四分位数是3.5。这将足够接近,但我认为这恰好接近我想要的数字是幸运的。我觉得对于不同分布的数据集,第一个四分位数可能会关闭。
我是一个统计新手,所以可能有一些关于如何分解这个我还不熟悉的问题的概念。