将样本分布与隐含分布进行比较

机器算法验证 r 贝叶斯
2022-03-14 08:10:49

我有一项特定于库存管理的任务,目前让我发疯。总结问题:我们必须定期监控库存设置,以确保它们代表真正的需求,以确保我们没有库存过多或库存不足。标准程序是安排审查,其中高容量项目每月审查一次,低容量项目每季度审查一次。但绝大多数 SKU 没有调整;每次审核后调整的 SKU 不到 9%……这意味着 91% 的 SKU 的需求模式没有显着变化,以保证其库存参数发生任何变化。我正在尝试设计一个过滤器,这样我就不会审查每个 SKU,而只审查需求模式可能与之前隐含需求发生变化的 SKU。

为库存管理领域提供背景知识:

1) 库存 SKU 具有在指定的消耗率和可变性下管理其库存水平的设置。有实际参数(例如交货时间)以及计算参数(例如平均每日需求),并且通常是启发式参数(例如以库存率为目标)。

2)一般来说,如果我知道所有当前使用的参数(甚至 n-1),我就知道导致这些参数的隐含需求分布。例如,如果我的安全库存为 96 件,日均需求量为 10 件,交货期为 5 天,目标库存率为 98%,并且需求呈正态分布,那么我知道隐含需求可以表示为均值为 10,标准差为 10 的正态分布。

我正在尝试找到一种方法,可以帮助我分配需求样本来自具有显式参数的隐含需求分布的概率。有没有办法计算这个概率?这听起来像是一个条件概率问题,但我不确定如何构建一个计算来使用参数化分布确定条件概率。

以这个问题为例:如果我最近 10 天的需求是 c(6,7,7,5,7,8,9,4,4,9),那么这个样本来自正常情况的概率是多少?分布人口平均为 5,标准差为 3?

2个回答

这是前世熟悉的问题!

首先,您将无法完全按照您的意愿行事,即得出观察结果可能来自指定分布等的概率。这是因为您没有明确指定的替代方案分布,如果一切都不好,数据来自哪个分布。有太多的方法可能会出错,无法轻易得出这样的分布,但没有它,你就没有什么可以用来帮助你说“这个观察集合更有可能来自库存错误需求分布”而不是来自常规的需求分布。”

尽管如此,您仍然可以计算并将其与名义现有库存的货币价值一起用于开发周期排名系统计算 SKU。无疑会涉及一些试错,因为低概率可能是由于库存记录中的错误或概率分布(或机会)的错误指定,并且您想要计算前一种情况而不是后一种情况。p(new data|estimated parameters)

在 R 中,例如,这样的计算可能是:

NewData <- c(6,7,7,5,7,8,9,4,4,9)
EstMean <- 5
EstSD <- 3
exp(sum(dnorm(NewData, EstMean, EstSD, log=TRUE)))

写完之后,我强烈建议在平均需求 < 10 或 15 左右的情况下使用负二项分布而不是泊松分布(对于更高的需求水平,使用连续分布。)在长期的库存控制中,我只见过一个需求被泊松分布很好地建模的情况。Gamma 也有问题,因为如果需求是真正分布的 Gamma,则零需求是不可能的,但确实会发生缺货......事实上,我发现零膨胀负二项分布往往更适合各种 SKU比标准形式,当然还有 Gamma 和(截断的)Normal。

查看该ks.test函数以获取将数据与给定连续分布(使用预定义参数)进行比较的一种选择。查看vcd用于检查离散分布的工具包。