数据挖掘 - 如何解释 R 中线性回归模型的输出？ - 吾爱随笔录

数据挖掘 r 线性回归描述性统计解释

2022-02-28 15:19:49

我有以下线性回归模型及其分析。有一些错误，但我不太确定这些错误。到目前为止，我还没有成功找到它们。

首先，斜率的 95% 置信区间应为

所以计算是错误的。

其次，我不确定置信区间的解释。您将如何在上下文中解释它？

3个回答

因此，问题集中在置信区间背后的含义上。

置信区间背后的主要原则如下：

对整个人口（即所有来自中国和香港的加州大学洛杉矶分校学生）进行抽样并衡量他们的文化适应情况非常昂贵且时间效率低下（如果不是不可能的话）。因此，我们可以从这个人群（即 200 名学生）中抽取样本。

从这个样本中，我们可以在输入特征（即国家）和文化调整水平之间建立一个线性模型，并建立模型的斜率。

仅斜率就只能告诉我们在这 200 名学生身上训练的线性模型的斜率。我们希望对斜率进行估计，我们至少有 95% 的置信度认为它位于特定范围内。因此，置信区间。

这是一篇关于置信区间的文章以供进一步参考：https ://www.simplypsychology.org/confidence-interval.html

对我来说，这里要看的重点是调整后的 R² 0.02，它基本上告诉我们，仅原籍国并不是文化调整的重要预测因素，我们无法得出任何实际结论。

鉴于潜在的重要控制变量或其他预测变量未包含在模型中，我们无法确定例如性别、在美国度过的年数（测试前）、父母的收入/社会地位等不会起到重要作用作用或影响结果。

所以实际上的解释是该模型不是决定性的，需要做更多的工作。

根据“文化调整”的规模，置信区间支持这种解释，基本上告诉我们来自香港的学生可能与中国大陆学生的分数相同或好得多，也就是说，模型不自信完全没有（除非比例为 1-100 或更高，在这种情况下，模型将有信心看到没有差异）。

观察到的置信区间的计算不正确，显示负号。因此，您无法解释有关两国学生差异的置信区间。

此外，预期置信区间的定义不正确。它应该是 Beta = b + 或 - (减) 1.96 × SE

值得注意的是，计算出的 t 大于表中的 t =1.96 的值，为 5%。这表明香港和中国大陆学生在文化适应方面存在显着差异。

其它你可能感兴趣的问题