我想知道如何正确解释条件密度图。我在下面插入了两个我在 R 中用cdplot
.
例如,当Var 1为 150 时, Result等于 1的概率是否约为 80%?
深灰色区域是Result
等于 1 的条件概率,对吗?
从cdplot
文档中:
cdplot 在给定由 y 的边际分布加权的 y 水平的情况下计算 x 的条件密度。密度是在 y 的水平上累积得出的。
这种积累如何影响这些图的解释方式?
我想知道如何正确解释条件密度图。我在下面插入了两个我在 R 中用cdplot
.
例如,当Var 1为 150 时, Result等于 1的概率是否约为 80%?
深灰色区域是Result
等于 1 的条件概率,对吗?
从cdplot
文档中:
cdplot 在给定由 y 的边际分布加权的 y 水平的情况下计算 x 的条件密度。密度是在 y 的水平上累积得出的。
这种积累如何影响这些图的解释方式?
例如,当 Var 1 为 150 时,Result 等于 1 的概率是否约为 80%?
不,是相反的。Var1的概率约为 80%。同样,当 Var1的概率约为 20%。
深灰色区域是 Result 等于 1 的条件概率,对吧?
深色阴影区域对应 Result;浅色区域对应 Result。
如果您的结果因素中有两个以上的级别,那么所描绘的内容可能会更明显。我们只是习惯于查看密度函数,因此这个演示文稿一开始可能会令人困惑。
这种积累如何影响这些图的解释方式?
查看 的来源cdplot()
,我认为这里发生的是结果的平滑比例由解释变量的密度加权。因此,因变量的分布将在解释变量的较高密度区域中得到更好的表示。
一种解释方法是,在解释变量的某些区域中,点数很少,条件分布将无法很好地确定。在解释变量的区域有更多点的地方,条件分布将更好地确定。