为什么对数正态分布非常适合服务器响应时间?

机器算法验证 对数正态分布 互联网
2022-03-16 09:44:42

我发现网络服务器响应时间通常被建模为来自这里的对数正态分布。我不太明白为什么会这样!

特别是,维基百科指出,当随机变量 X 是多个独立正态变量的乘积时,它是对数正态分布的。

在这种情况下,这些单独的正常变量在服务器代码的执行时间中代表什么?

我还没有找到任何资源来讨论为什么对数正态分布非常适合网络服务器响应时间。

不确定这个问题是否最好在 stackoverflow 或 math.stackexchange 上提出,但我想我会在这里尝试。

感谢您的任何见解!

2个回答

你可能有兴趣阅读这篇论文

弗恩·帕克森。广域 TCP 连接的经验推导分析模型。IEEE/ACM 网络交易,1994 年。

在此处在线获取。从摘要:

我们分析了在 15 个广域流量跟踪期间发生的 300 万个 TCP 连接。这些痕迹是在五个“存根”网络和两个互联网网关处收集的,提供了对广域流量的不同看法。我们推导出描述与 telnet、nntp、smtp 和 ftp 连接相关的随机变量的分析模型。

并从纸上

对于大多数连接,响应者/持续时间比率通过指数分布很好地建模,但是“大”连接——那些响应者字节位于所有连接的前 10% 的连接——具有不同的分布。对于这些,该比率通过对数正态分布很好地建模。

虽然,它已经有点过时了:-)

X1,Xniidsomething. 你不知道分布,但你不需要。由中心极限定理X¯N. 不用担心参数。然后exp(X¯)lognormal. 最后部分:Y1=exp(iXin)=[exp(iXi)]1/n=[iexpXi]1/n.

Y1是您的第一个响应时间。我对这些东西一无所知,但他们使用它的理由可能与此有关。可能您的响应率来自来自某个未知分布的平均数以亿计的未知事物。