我有一个无界且连续的响应变量,但尾部较重并且违反了一些正态性假设(见下图)。
这个变量代表个体动物的选择系数(在单独的分析中估计),我希望测试它们生活的某些方面是否会影响它们选择栖息地的方式(即,生活在道路附近的动物是否选择相对于道路不同于远离道路的动物)。所以我希望在回归模型中使用这个变量作为因变量,混合连续和分类预测变量。具体来说,我希望使用信息论方法来选择预测选择行为(选择系数)的最佳变量,然后在栖息地变量范围内绘制预测系数。因此,我将根据与道路的距离绘制估计系数,以查看选择是否会根据动物与道路的距离而改变。但是,我不确定制定该模型的最佳方法。
如果我要拟合一个简单的线性回归,我会引入什么样的偏差?这种方法能否对大部分值范围(不包括尾部)给出合理的预测?
或者这是否表明数据中存在一些应该以不同方式处理的非线性?
或者是否有可能和/或更好地拟合一个回归模型,其中响应由不同的分布定义,例如逻辑分布?在试图找到如何在 R 中执行此操作的答案时,我只能找到有关逻辑回归的信息,据我所知,它不适应连续因变量(非正态分布)所以不能解决我的问题。
非常感谢任何建议!