之间有什么关系和在下面的情节中?在我看来,存在负线性关系,但是因为我们有很多异常值,所以这种关系很弱。我对吗?我想了解如何解释散点图。
之间有什么关系是Y和XX在这个情节?
该问题涉及几个概念:如何评估仅以散点图形式给出的数据,如何总结散点图,以及关系是否(以及在何种程度上)看起来是线性的。让我们按顺序排列它们。
评估图形数据
使用探索性数据分析 (EDA) 的原则。 这些(至少最初是为铅笔和纸使用而开发的)强调简单、易于计算、可靠的数据摘要。一种最简单的汇总是基于一组数字中的位置,例如描述“典型”值的中间值。 中间值很容易从图形中可靠地估计出来。
散点图显示成对的数字。每对中的第一个(绘制在水平轴上)给出了一组单独的数字,我们可以单独总结。
在这个特定的散点图中,y 值似乎位于两个几乎完全独立的组中:上面的值在顶部和那些等于或小于在底部。(这种印象通过绘制 y 值的直方图得到证实,该直方图是双峰的,但在现阶段这将是很多工作。)我邀请怀疑者眯着眼睛看散点图。当我这样做时——使用散点图中的点的大半径、伽马校正的高斯模糊(即标准的快速图像处理结果),我看到了这一点:
两组——上层和下层——非常明显。(上组比下组轻得多,因为它包含的点要少得多。)
因此,让我们分别总结 y 值组。我将通过在两组的中间画水平线来做到这一点。为了强调数据的印象并表明我们没有进行任何类型的计算,我已经 (a) 删除了所有装饰,如轴和网格线,并且 (b) 模糊了点。因此,“眯着眼”看图形会丢失有关数据模式的少量信息:
同样,我试图用垂直线段标记 x 值的中值。在上面的组(红线)中,您可以检查 - 通过计算斑点 - 这些线确实将组分成两个相等的两半,水平和垂直。在较低的组(蓝线)中,我只是在视觉上估计了位置,而没有实际进行任何计数。
评估关系:回归
交点是两组的中心。 x 和 y 值之间关系的一个很好的总结是报告这些中心位置。 然后,人们会希望通过描述数据在每个组中分布的程度来补充此摘要 - 向左和向右,在上方和下方 - 围绕它们的中心。为简洁起见,我不会在这里这样做,但请注意(大致)我绘制的线段的长度反映了每个组的整体分布。
最后,我画了一条连接两个中心的(虚线)线。 这是一条合理的回归线。 它是对数据的良好描述吗?当然不是:看看这条线周围的数据有多分散。它甚至是线性的证据吗?这几乎无关紧要,因为线性描述太差了。尽管如此,因为这是摆在我们面前的问题,所以让我们来解决它。
评估线性度
当y 值围绕一条线以平衡随机方式变化或x 值被视为围绕一条线以平衡随机方式变化(或两者)时,关系在统计意义上是线性的。
前者在这里似乎不是这样:因为 y 值似乎分为两组,从大致对称分布在线上方或下方的意义上说,它们的变化永远不会看起来平衡。(这立即排除了将数据转储到线性回归包中并执行 y 与 x 的最小二乘拟合的可能性:答案将不相关。)
x 的变化呢?这更合理:在图上的每个高度,点在虚线周围的水平分布非常平衡。在较低的高度(低 y 值),这种散布中的散布似乎更大一些,但这可能是因为那里有更多的点。(您拥有的随机数据越多,它们的极值之间的距离就会越宽。)
此外,当我们从上到下扫描时,回归线周围的水平散射没有严重不平衡的地方:这将是非线性的证据。(嗯,可能在 y=50 左右可能有太多的大 x 值。这种微妙的影响可以作为进一步的证据,将数据分成 y=60 值附近的两组。)
结论
我们已经看到
将 x 视为 y 的线性函数加上一些“不错的”随机变化是有意义的。
将y 视为 x 加上随机变化的线性函数是没有意义的。
回归线可以通过将数据分成一组高 y 值和一组低 y 值,使用中位数找到两组的中心,然后连接这些中心来估计。
结果线有一个向下的斜率,表示负线性关系。
没有明显偏离线性。
然而,由于线周围的 x 值的分布仍然很大(与开始时 x 值的整体分布相比),我们必须将这种负线性关系描述为“非常弱”。
将数据描述为形成两个椭圆形的云可能更有用(一个表示 y 高于 60,另一个表示 y 值较低)。在每个云中,x 和 y 之间几乎没有可检测到的关系。云的中心在 (0.29, 90) 和 (0.38, 30) 附近。云具有可比的分布,但上层云的数据远少于下层(可能少 20%)。
其中两个结论证实了问题本身的结论,即存在弱负关系。其他人补充并支持这些结论。
在这个问题中得出的一个似乎站不住脚的结论是断言存在“异常值”。更仔细的检查(如下图所示)将无法发现任何可能被认为是异常的单独点,甚至是小组点。经过足够长的分析,一个人的注意力可能会被吸引到靠近右中的两个点或左下角的一个点,但即使这些也不会改变一个人对数据的评估,无论是否考虑它们边远。
进一步的方向
可以说的更多。 下一步将是评估这些云的扩散。可以使用此处显示的相同技术分别评估两个云中每个云中 x 和 y 之间的关系。下层云的轻微不对称(更多数据似乎出现在最小的 y 值处)可以通过重新表达 y 值来评估甚至调整(平方根可能效果很好)。在这个阶段,寻找异常数据是有意义的,因为此时描述将包括有关典型数据值及其分布的信息;离群值(根据定义)离中间太远,无法用观察到的传播量来解释。
这项工作(相当定量)只需要找到数据组的中间并用它们进行一些简单的计算,因此即使数据仅以图形形式可用,也可以快速准确地完成。此处报告的每个结果(包括定量值)都可以使用显示系统(例如硬拷贝和铅笔:-))在几秒钟内轻松找到,该系统允许在图形顶部制作浅色标记。
让我们玩得开心!
然后,我使用一条运行线平滑器来生成下面的黑色回归线,其中 95% CI 虚线带为灰色。下图显示了一半数据的平滑跨度,尽管更紧密的跨度或多或少地揭示了相同的关系。周围坡度的轻微变化提出了一种可以使用线性模型和添加斜率的线性铰链函数来近似的关系在非线性最小二乘回归(红线)中:
系数估计为:
我会注意到,虽然令人敬畏的 whuber 断言没有强的线性关系,但与这条线的偏差铰链项所隐含的与斜率的阶数相同(即 37.7),所以我会恭敬地不同意我们没有看到强非线性关系(即是的,没有强关系,但非线性项与线性项一样强)。
解释
(我假设你只对作为因变量。)的值被非常微弱地预测为(与调整 -=0.03)。该关联近似线性,斜率略有下降,约为 0.46。残差有些偏右,可能是因为. 给定样本量,我倾向于容忍违反常态的行为。更多观察值将有助于确定斜率的变化是真实的,还是降低方差的假象在那个范围内。
与更新图形:
(红线只是 ln(Y) 在 X 上的线性回归。)
在评论中,Russ Lenth 写道:“我只是想知道如果你顺利的话,这是否成立对比. 的分布是向右倾斜的。”这是一个很好的建议,因为转换与也比之间的线更适合和残差分布更对称。然而,他的建议和我的线性铰链分享对(未转换)之间关系的偏好和这不是用直线描述的。
这是我的2 美分1.5 美分。对我来说,最突出的特征是数据在 Y 范围的底部突然停止并“聚集”。我确实看到了两个(潜在的)“集群”和一般的负关联,但最显着的特征是(潜在的)地板效应以及顶部低密度集群仅延伸到 X 范围的一部分这一事实。
因为“集群”是模糊的二元正态,所以尝试参数正态混合模型可能会很有趣。使用@Alexis 的数据,我发现三个集群优化了 BIC。高密度的“地板效应”被选为第三个集群。代码如下:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
现在,我们可以从中推断出什么?我不认为这Mclust
仅仅是人类模式识别出了差错。(而我对散点图的阅读可能是。)另一方面,毫无疑问这是post-hoc。我看到了我认为可能是一个有趣的模式,因此决定检查它。该算法确实找到了一些东西,但后来我只检查了我认为可能存在的东西,所以我的拇指肯定在秤上。有时可以设计一种策略来缓解这种情况(请参阅@whuber在此处的出色答案),但我不知道在这种情况下如何进行这样的过程。结果,我对这些结果加了很多盐(我经常做这种事情,以至于有人错过了整个振动器)。它确实给了我一些材料,让我在下次见面时与我的客户一起思考和讨论。这些数据是什么?可能存在地板效应是否有意义?可能有不同的群体有意义吗?如果这些是真实的,那将是多么有意义/令人惊讶/有趣/重要?是否存在独立数据/我们能否方便地获取它们以对这些可能性进行诚实的测试?等等。
让我描述一下我一看到它就看到的东西:
如果我们对条件分布感兴趣(如果我们看到,这通常是兴趣集中的地方作为 IV 和作为 DV),那么对于的条件分布出现双峰,上组(约 70 到 125 之间,平均值略低于 100)和下组(0 到约 70 之间,平均值约 30 左右)。在每个模态组内,与几乎是平的。(请参阅下面的红线和蓝线,我猜想大概是位置感)
然后通过查看这两组或多或少密集的位置,我们可以继续说:
为了上组完全消失,这使得整体均值下降,低于 0.2 左右,较低组的密度远低于其以上,从而使整体平均值更高。
在这两种效应之间,它在两者之间引起了明显的负(但非线性)关系,如似乎正在减少反对但在中心有一个广阔的、大部分平坦的区域。(见紫色虚线)
毫无疑问,知道什么很重要和是,因为这样可能更清楚为什么条件分布可能在其大部分范围内是双峰的(实际上,甚至可能很明显确实存在两个组,它们的分布在引起明显的递减关系)。
这是我基于纯粹的“肉眼”检查所看到的。在一些基本的图像处理程序(比如我画线的程序)中进行一些操作,我们可以开始计算出一些更准确的数字。如果我们将数据数字化(使用体面的工具非常简单,如果有时做对有点乏味),那么我们可以对这种印象进行更复杂的分析。
这种探索性分析可能会导致一些重要的问题(有时会让拥有数据但只显示图表的人感到惊讶),但我们必须注意这些检查选择我们的模型的程度 - 如果我们应用根据图的外观选择的模型,然后在相同的数据上估计这些模型,当我们对相同的数据使用更正式的模型选择和估计时,我们往往会遇到同样的问题。[这并不是要否认探索性分析的重要性——只是我们必须小心这样做的后果,而不考虑我们如何去做。]
回应拉斯的评论:
[稍后编辑:澄清一下——我广泛同意拉斯的批评,作为一般预防措施,而且肯定有一些可能性我已经看到了比实际情况更多的情况。我计划回来将这些内容编辑成更广泛的评论,对我们通常通过肉眼识别的虚假模式以及我们可能开始避免最糟糕的情况的方式进行评论。我相信我还可以添加一些理由来说明为什么我认为在这种特定情况下它可能不仅仅是虚假的(例如,通过回归图或 0 阶内核平滑,当然,没有更多数据来测试,只有到目前为止还可以;例如,如果我们的样本不具代表性,即使重新采样也只能让我们走这么远。]
我完全同意我们倾向于看到虚假模式;这是我在这里和其他地方经常提出的一个观点。
例如,在查看残差图或 QQ 图时,我建议的一件事是生成许多已知情况的图(无论是事情应该是什么还是假设不成立),以便清楚地知道应该有多少模式忽略。
这是一个示例,其中一个 QQ 图被放置在其他 24 个图(满足假设)中,以便我们了解该图有多么不寻常。这种练习很重要,因为它可以帮助我们避免通过解释每一个微小的摆动来欺骗自己,其中大部分都是简单的噪音。
我经常指出,如果您可以通过覆盖几个点来改变印象,那么我们可能依赖于无非是噪音产生的印象。
[然而,当它从很多方面而不是少数方面显而易见时,很难坚持它不存在。]
whuber 的回答中的显示支持了我的印象,高斯模糊图似乎在.
当我们没有更多数据要检查时,我们至少可以查看印象是否倾向于在重采样中幸存下来(引导二元分布,看看它是否几乎总是存在),或者印象不应该明显的其他操作如果是简单的噪音。
1)这是查看明显双峰性是否不仅仅是偏度加噪声的一种方法 - 它是否显示在核密度估计中?如果我们在各种变换下绘制核密度估计,它仍然可见吗?在这里,我将其转换为更大的对称性,默认带宽的 85%(因为我们试图识别一个相对较小的模式,并且默认带宽并未针对该任务进行优化):
这些地块是,和. 垂直线位于,和. 双峰减少了,但仍然很明显。由于在原始 KDE 中非常清楚,它似乎证实了它的存在——第二和第三个图表明它至少对转换有些鲁棒。
2)这是查看它是否不仅仅是“噪音”的另一种基本方法:
步骤 1:对 Y 执行聚类
第二步:分成两组, 并分别对两组进行聚类,看看是否非常相似。如果没有发生任何事情,就不应该期望这两半会分裂得那么相似。
带点的点的聚类与上图中的“all in one set”聚类不同。稍后我会做更多,但似乎在该位置附近可能真的存在水平“分裂”。
我将尝试回归图或 Nadaraya-Watson 估计器(两者都是回归函数的局部估计,)。我还没有生成任何一个,但我们会看看它们是如何进行的。我可能会排除数据很少的那一端。
3)编辑:这是回归图,宽度为 0.1 的箱(不包括最末端,正如我之前建议的):
这完全符合我对剧情的最初印象;这并不能证明我的推理是正确的,但我的结论与回归图的结果相同。
如果我在情节中看到的 - 以及由此产生的推理 - 是虚假的,我可能不应该成功辨别像这样。
(接下来要尝试的是 Nadayara-Watson 估计器。如果有时间,我可能会看看它是如何重新采样的。)
4)稍后编辑:
Nadarya-Watson,高斯核,带宽 0.15:
同样,这与我最初的印象惊人地一致。这是基于十个引导重采样的 NW 估计器:
广泛的模式就在那里,尽管一些重新采样并没有清楚地遵循基于整个数据的描述。我们看到左侧水平的情况不如右侧确定 - 噪声水平(部分来自少数观察,部分来自广泛传播)使得我们不太容易声称平均值在左边比中心。
我的总体印象是,我可能不仅仅是在自欺欺人,因为各个方面都能很好地应对各种挑战(平滑、转换、拆分成子组、重新采样),如果它们只是噪音,它们往往会掩盖它们。另一方面,有迹象表明,虽然与我最初的印象大体一致,但效果相对较弱,要声称从左侧到中间的预期发生任何真正的变化可能是过分的。