我现在看到了几篇分析变量之间的 U 形或倒 U 形关系的论文(在回归框架中)。我从那里得到的一般理解是,它是一种特定类型的非线性关系,我们都可以很容易地想象出来。
但是,我对人们如何在数学上准确定义 U 形回归函数感到有些困惑。为简单起见,假设只有回归量。
具有 U 形回归函数是否意味着回归函数是凸的并且在中减小到某个点,然后在是凸的并且在中增加之后?
还是仅仅意味着回归函数在中减小到某个点,然后在中增加?
我现在看到了几篇分析变量之间的 U 形或倒 U 形关系的论文(在回归框架中)。我从那里得到的一般理解是,它是一种特定类型的非线性关系,我们都可以很容易地想象出来。
但是,我对人们如何在数学上准确定义 U 形回归函数感到有些困惑。为简单起见,假设只有回归量。
具有 U 形回归函数是否意味着回归函数是凸的并且在中减小到某个点,然后在是凸的并且在中增加之后?
还是仅仅意味着回归函数在中减小到某个点,然后在中增加?
您的问题的简短回答(如其他地方所述)是 U 形没有单一的数学定义。@whuber 的评论是我见过的最好的一般定义。
我对 U 形测试进行研究,在我的演示文稿中,我有一张幻灯片,标题为“U 对你意味着什么?”,这意味着人们对“U 形”一词的含义是主观的。最重要的是,当您使用“U 形”一词时,您要准确定义您的意思,而不是假设其他人会知道您的意思。
由于您仅指定了一个回归量的情况,因此我将重点关注这一点。我在各种文章中看到了以下定义:
出现的一个复杂情况是,如果转折点接近 x 变量范围的末端怎么办?我们还应该将这样的函数视为 U 形吗?在我看来,当您定义 U 形对您的应用程序意味着什么以及指定零假设时,应该进行这样的讨论。
我在我的论文“U 形关系的非参数测试”中使用的定义如下:
令为回归函数,令为的支持。对于指定的集合,我们有兴趣测试以下内容:
例如,在一个应用程序中,我测试了从 20 岁到 70 岁的生活满意度的 U 型曲线,其中转折点在 30 岁到 60 岁之间。对于这个提议的框架,任意决定是必要的。重要的是要对它们持开放态度,并检查结果对变化的敏感程度(并挑战其他人也这样做)。
除了陈述零假设之外,您还应该一如既往地陈述您所依赖的假设。例如,一个常见的假设是回归函数在单调上是 U 形的。例如,参见 Lind 和 Mehlum 的 2009 年“有或没有 U?U 形关系的适当检验”,他们在其中提出了对普通 OLS 二次检验的改进,方法是检验指定函数形式的导数在范围的开始,结束时为正。
要考虑的另一点是:您是否想要一个因为对 U 形的小幅违反而拒绝原假设的检验?如果是,请考虑 R 包qmtest,它基于回归函数是准凸的和单独的单调的零假设样条实现非参数测试。如果您不想要一个由于小的违规而对 U 形进行推断的测试,如果您想测试回归函数主要是减少然后主要是增加,那么 Uri 的两线测试可能是最好的。
由于您的问题是关于“U 形”一词的使用和定义,我发现在这里列出一些经常用于指代“U 形”和“倒 U 形”的术语是相关的”用于指:“谷形”、“槽形”、“山形”、“单峰”、“单峰”和“钟形”。“U 形”一词比其他词更好,并没有内在的原因,但它的使用似乎已经流行起来。
我正在开发一个通用的 R 包,它只是特定 R 包(例如 qmtest)的接口,用于测试 U 形关系,但他们选择定义它们。目标是帮助用户比较不同的测试,并认真思考他们想要测试的确切零假设,以及他们准备做出哪些假设。
“U 形关系”在数学上不是一个精确的术语,也没有普遍接受的定义。这通常意味着关系是先减少后增加,反之亦然。
换句话说,这意味着关系不是单调的(非单调的),而是恰好有一个极值(最大值或最小值)。在计算机科学中,这有时被称为“双音”。
Uri Simonsohn 最近写了一篇关于测试 U 形关系的有趣论文。请参阅他的预印本《两行:对具有二次回归的 U 形关系的无效测试的有效替代方案》,这本书非常具有可读性和趣味性。这篇论文是这样开始的:
开场白中有太多的选择、优点或例子吗?研究人员通常对这些类型的问题感兴趣,以评估对的低值是否为正,但对于 x 的高值是否为。为了便于说明,我将所有此类关系称为“u 形”,无论它们是否对称(即 U 形或 J 形),以及对的影响是否从负变为正,反之亦然(即,U 或倒 U)。
这支持了我上面给出的定义。
有关 Uri 论文的简短概述,可以阅读他的 DataColada 帖子两行:U 形关系的第一个有效测试。主要的一点是,用二次回归来检验U型关系的存在是非常非常错误的。显然,二次拟合在某些领域经常被用来支持 U 形关系(即二次项的 t 检验被视为 U 形的检验);这令人不安。
这是关键人物:
更新:评论中有对 Uri 论文的一些批评。我想强调的是,他从不建议不连续的两线拟合应该很好地模拟数据(或者不连续处的跳跃具有某种物理意义)。不可以。此拟合仅用于提供 U 形统计测试。
当然,我同意@FrankHarrell 的观点,即使用样条模型来拟合这种非线性关系更有意义。但是样条不提供 U 形测试,而 Uri 的两线拟合可以。