我很好奇是否有一种变换可以改变随机变量的偏斜而不影响峰度。这类似于 RV 的仿射变换如何影响均值和方差,但不影响偏斜和峰度(部分原因是偏斜和峰度被定义为不受尺度变化的影响)。这是一个已知问题吗?
在不影响峰度的情况下改变偏斜的变换?
机器算法验证
数据转换
随机变量
时刻
2022-03-20 08:51:49
3个回答
我的回答是全面破解的开始,但我不知道有任何既定的方法可以按照您的要求进行操作。
我的第一步是对您的数据集进行排序,您可以在数据集中找到比例位置,然后将其转换为正态分布,这种方法在 Reynolds & Hewitt, 1996 中使用。请参阅下面的 PROCMiracle 中的示例 R 代码。
一旦分布正常,问题就迎刃而解了——调整峰度而不是偏斜。谷歌搜索表明可以按照 John & Draper, 1980 的程序来调整峰度而不是偏斜 - 但我无法复制该结果。
我尝试开发一个粗略的扩展/缩小函数,该函数采用输入(归一化)值并从中添加或减去一个与正常比例上的变量位置成比例的值确实会导致单调调整,但实际上往往会创建双峰分布虽然具有所需的偏度和峰度值。
我意识到这不是一个完整的答案,但我认为它可能会朝着正确的方向迈出一步。
PROCMiracle <- function(datasource,normalrank="BLOM")
{
switch(normalrank,
"BLOM" = {
rmod <- -3/8
nmod <- 1/4
},
"TUKEY" = {
rmod <- -1/3
nmod <- 1/3
},
"VW" ={
rmod <- 0
nmod <- 1
},
"NONE" = {
rmod <- 0
nmod <- 0
}
)
print("This may be doing something strange with NA values! Beware!")
return(scale(qnorm((rank(datasource)+rmod)/(length(datasource)+nmod))))
}
另一个可能有趣的技术浮现在脑海中,尽管这并不能完全回答这个问题,是将样本转换为具有固定的样本 L-skew 和样本 L-kurtosis(以及固定的均值和 L-尺度)。这四个约束在订单统计中是线性的。观测样本上保持变换单调,则需要另一个方程。这可以作为一个二次优化问题提出:最小化样本顺序统计数据和受给定约束的转换版本之间的范数。不过,这是一种古怪的方法。在最初的问题中,我正在寻找更基本和基本的东西。我也在暗中寻找一种可以应用于个人观察的技术,而不是拥有整个样本队列。
我宁愿使用尖峰分布而不是使用数据转换来建模这个数据集。我喜欢 Jones 和 Pewsey (2009),Biometrika 的 sinh-arcsinh 分布。
其它你可能感兴趣的问题