随机生成具有可能相关变量的 n 维数据

机器算法验证 随机生成
2022-04-19 03:07:31

我想使用另一个输入集生成一组人工数据,从中可以提取变量之间的相关性。并非所有变量都是二进制的,但数据可以很容易地扩展为二进制,但以增加维度为代价。

我只能在Friedrich Leisch、Andreas Weingessel 和 Kurt Hornik的工作论文中找到一种生成相关人工二进制数据的方法。

是否有其他推荐的方法,尤其是那些不需要数据为二进制的方法?

1个回答

生成具有相关性的多元随机数据的一种方法是使用copula基本上,您生成具有均匀边距和相关结构的 n 维数据,然后将数据转换为感兴趣的边际分布(可以通过简单地查看值是否大于截止值来生成二进制变量)。这并不能保证与转换后的变量的精确相关,但确实给出了一般的相关结构,并且可以与任何具有逆 CDF 的分布一起使用。

这可用于生成混合了二进制变量和来自其他分布(或其他离散变量)的连续变量的数据集。您可以模拟多个数据集并检查相关程度,如果它与您希望的不接近,请返回并相应地调整 copula 并重试。