我有一个二元响应变量(冰雹)和多个连续预测变量。我的目标是了解预测变量与响应的线性/非线性关系,以便能够证明使用线性或非线性模型的合理性。
我得到了使用条件密度图(cdplot()在 R 中)的建议。由于我的数据分布(SO问题)遇到了一些问题,我也尝试了旋转图(spineplot())。为了可视化我的 x 变量的点密度,我使用lattice::densityplot()了“条件密度对于 x 的高密度区域更可靠”。
个人解释:
我读到了cdplot()这里的解释。'Spinograms' 和 'Cond. 窝点。图'显示给定温度下冰雹/无冰雹的概率。根据对x 轴变量Spinograms的调用提供分组的 x 轴视图。hist()'条件。窝点。plot' 显示与 Spinograms 基本相同,只是平滑了?
我害怕 -18 到 -10 区域的高概率,
spineplot()因为cdplot()我的 x 变量只有几个点落入这个范围,因此这个区域“不太可靠”。如何解读-18°C区域
spineplot()的差异?显示大约 0.1 的概率,而显示大约 0.3 的峰值?cdplot()spineplot()cdplot()
我会得出结论,它spineplot()显示出非线性关系,同时也cdplot()显示出这一点,但是有轻微的负线性关系趋势?

