我不确定是否应该在 Cross Validated 或此处打开这个问题。但是由于这个问题属于一个与数据科学相关的更大的项目,所以我选择了这个。
我将展示我的工作项目的简化版本,因为原始版本太复杂且特定于领域。
假设我们有 1 小时(60 分钟)的时间线。在此期间,作业开始运行并在随机点创建用户通知。我写了一个蒙特卡罗模拟来研究这个过程。
我的主要问题:
- 这些通知在 60 分钟内的传播情况如何?
- 我们是否有部分时间线不包含通知,其余部分是否集中在特定时间?
- 在实现中更改随机函数,上述答案将如何受到影响?
模拟实际代码的蒙特卡洛伪代码是:
Repeat one million times
number_of_notifications = get_random_number_of_notifications ()
previous_point = 0
for i in range(0 to number_of_notifications):
interval = get_random_interval()
new_point = previous_point + interval
previous_point = new_point
注意:在当前的实现中,两个或多个通知可以在同一分钟。
首先,我认为在模拟期间创建特定分钟的直方图将有助于我回答第一个问题。但后来,我意识到我可以对上半场的所有事件和下半场的所有事件进行一个模拟,并且直方图误导它传播得很好。
然后我认为在每个模拟中绘制间隔的最小值、最大值、平均值和标准可能会很好。但是,是否足以回答他们?
我应该尝试什么样的可视化来让我了解蒙特卡洛模拟中的通知?