当我收到问题时,我将问题抛在这里。
我有两个随机变量。其中一个是连续的(Y),另一个是离散的并将作为序数(X) 逼近。我将连同查询一起收到的情节放在下方。
向我发送数据的人想要测量 X 和 Y 之间关联的强度。我正在寻找不会预先加载关于什么过程生成数据的假设的想法。请注意,这不是要找到一种非参数化的方法来测试关系的强度(如在 bootstrap 中),而是要找到一种非参数化的方法来测量它。
另一方面,效率不是问题,因为有很多数据点。
当我收到问题时,我将问题抛在这里。
我有两个随机变量。其中一个是连续的(Y),另一个是离散的并将作为序数(X) 逼近。我将连同查询一起收到的情节放在下方。
向我发送数据的人想要测量 X 和 Y 之间关联的强度。我正在寻找不会预先加载关于什么过程生成数据的假设的想法。请注意,这不是要找到一种非参数化的方法来测试关系的强度(如在 bootstrap 中),而是要找到一种非参数化的方法来测量它。
另一方面,效率不是问题,因为有很多数据点。
根据定义,序数刻度是其中槽口之间的真实距离1 2 3 4
未知的量规。就像您在毒品/酒精下看到统治者一样。真实距离可以是任意的。它可能是1 2 3 4
或1 2 3 4
或其他。我们无法计算统计数据 - 例如相关性 - 除非确定距离并修复它们。
一种推理如下。由于我们的测量尺度,仪表,以一种未知的单调方式扭曲,我们不能相信数据值。只有它们的数量级是值得信赖的。没有进一步的大脑控制,宣布秩序为价值。因此,我们将观察到的分布替换为均匀分布,即秩。之后,可以计算关联系数,例如 Pearson。正如我们所知,那将是 SpearmanPearson衡量线性关联的强度。对变量进行排名是一种将单调关系的部分线性化的技巧,该部分归因于最初的分布不均匀。因此,斯皮尔曼是这种关系中这种单调性的度量,它可以在均匀边缘分布的作用下转化为线性。在 OP 问题中,两个变量中只有一个是有序的(第二个是连续的)。因此,通常不需要对这两个变量进行排名。可以只对序数进行排名,然后计算。
另一种方法,替代排名(统一),可能是序数变量的最佳缩放。最优标度是一个迭代过程,其目标是在序数标度上找到这样的距离——即找到它的这种单调变换——使得变量之间的线性尽可能最大化。排名方法基于“真实尺度对应于具有均匀分布的数据”的前提,而最优尺度方法基于“真实尺度对应于具有最大线性“。可以在分类回归(CATREG)中进行最佳缩放。但是,分类回归要求其他输入变量是离散的(不一定是有序的),因此如果它是连续的,具有许多唯一值,则必须由您任意分箱.
还有其他方法。但无论如何,我们单调地变换序数尺度“以便……”(一些假设或某个目标),因为序数尺度以未知的方式扭曲了我们。从根本上来说,另一个决定是首先“清醒”并决定它要么不失真(即它是间隔),要么以已知的方式失真(非等间隔),或者是名义上的。
一些非对称方法可能包括序数变量与另一个(间隔/连续)变量的序数回归。或按序数对后者进行线性回归,其中预测变量被视为多项式对比(即,输入为b1X + b2X^2 + b3X^3,...
)。这些方法的弱点是它们是不对称的:一个变量是依赖的,另一个是独立的。
斯皮尔曼的等级相关系数(单调关联的非参数测量)有什么理由不够用吗?单调性是否太“前装”?它基于变量的独立生成等级(和 ) :
如果单调性是一个过于严格的假设,我想知道基于最大信息的方法,例如 Reshef (2011, 2013) 提出的方法,它甚至不假设和之间的函数关系可能更符合你是什么寻找?
参考
Reshef, D.、Reshef, Y.、Finucane, H.、Grossman, S.、McVean, G.、Turnbaugh, P.、Lander, E.、Mitzenmacher, M. 和 Sabeti, P. (2011)。在大型数据集中检测新的关联。科学,334(6062):1518-1524。
Reshef, D.、Reshef, Y.、Mitzenmacher, M. 和 Sabeti, P. (2013)。最大信息系数的公平性分析,并进行比较。arXiv,8 月 14 日。