用嘈杂的数据爬山

数据挖掘 统计数据
2022-03-04 15:50:40

例如

  • 鞋子售价10美元,1000 位顾客中有 30 位购买了300美元的收入
  • 鞋子售价20美元,1000 位顾客中有 25 位购买了500美元的收入

然后现在我有一个问题是确定我是多么确定第二个定价会产生更高的回报

我的问题是:我怎样才能找出 X,以便我有 X% 的信心相信20美元的价格比 10美元的价格产生更高的回报

1个回答

如有疑问,请引导。

  • 列出 970 个 0(非销售10美元)和 30 个 10(销售10美元)-customers_10
  • 列出 975 个 0(非销售20美元)和 25 个 20(销售20美元) -customers_20
  • 重复很多次(也许 N = 100,000 次 - 增加这个直到结果稳定下来)
    • 从两个列表中随机抽取 1000 个样本(有替换) - samples_10,samples_20
    • 对每个列表的样本求和 - sum_s10,sum_s20
    • 记录哪一项产生了更多的收入(即是否sum_20 > sum_10
  • sum_s20 大于 sum_s10 的次数百分比是您的 X

(另一种在 N 大的限制下等效的方法是将其建模为二项式过程。但处理成本低,自举很健壮且易于实现 - 使二项式模型正确会更容易搞砸) .