您需要的是对回归方法的可靠审查。但是,这些问题足够基本(不要误会),即使是对基本统计数据的良好概述也可能会使您受益。豪厄尔写了一本非常流行的教科书,它提供了广泛的概念基础,而不需要密集的数学。可能值得您花时间阅读它。这里不可能涵盖所有这些材料。但是,我可以尝试让您开始解决您的一些具体问题。
首先,通过编码方案包含星期几. 最流行的是“参考类别”编码(通常称为虚拟编码)。让我们假设您的数据以矩阵表示,您的案例以行表示,变量以列表示。在这个方案中,如果您有 7 个分类变量(例如,一周中的几天),您将添加 6 个新列。您会选择一天作为参考类别,通常是被认为是默认的那一天。这通常是由理论、背景或研究问题决定的。我不知道哪一个最适合一周中的几天,但这也无关紧要,你可以选择任何旧的。获得参考类别后,您可以将其他变量分配给新的 6 个变量,然后您只需指明该变量是否适用于每种情况。例如,假设您选择星期日作为参考类别,您的新列/变量将是周一至周六。星期一发生的每一次观察都会用一个1星期一列中为。周二的观察也会发生同样的情况,依此类推。请注意,没有任何情况可以在 2 列或更多列中获得,并且发生在星期日(参考类别)的观察结果在所有新变量中都还有许多其他可能的编码方案,链接很好地介绍了它们。您可以通过测试删除所有新 6 个变量的嵌套模型与包含所有 6 个变量的完整模型来测试星期几是否重要。请注意,您不应使用标准输出报告的测试,因为它们不是独立的并且具有内在的多重比较问题。 010
很久没看Excel是怎么做统计的了,记不太清楚了,也许其他人能帮到你。 这个页面似乎有一些关于 Excel 中回归细节的信息。我可以告诉你更多关于回归输出中通常报告的统计信息:
- 接近的分数表明值响应变量几乎可以完全由预测变量的值确定。显然,这将是一个很大的影响,但先验并不清楚这是“好”——这是一个完全不同的、哲学上棘手的问题。 r1
- 鉴于您正在进行多重回归(通常不报告 ),因此不清楚它们所说的“' ' 是线性双变量关联的度量,也就是说,它适用于(仅)2 个变量之间的直线关系。但是,可以在模型的预测值和响应值之间获得分数。在这种情况下,您正在使用 2 个变量(如果您的模型被适当指定,则关系应该是线性的)。这个版本被称为'multiple -score',但它很少被软件讨论或报告。 rrrrr
- R-squared就是的平方(即);它不是标准偏差。随着关系变得更具确定性,它也将趋于 ,而不是。因此,如果您认为接近是“好”,那么您应该认为接近也是“好”。但是,您应该知道多个(和多个rr×r10r1R21rR2) 在多元回归中存在高度偏差。也就是说,您添加到模型中的预测变量越多,这些统计数据就会越高,无论是否存在任何关系。因此,您应该谨慎解释它们。
- 有时输出会列出单个预测变量的统计量统计量,以确定“显着性”。这些是可通过统计测试计算的随机变量,并且在指定自由度时具有已知分布。 tF
- 通过将实现的值(即您找到的值)与已知分布进行比较,您可以确定在原假设为真的情况下,找到比您的值更极端或更极端的值的概率。该概率是值。 p
- 当您仅测试一个参数时使用值可用于测试多个参数(例如,正如我在上面讨论的一周中的几天)。与相关的值是至少参数“显着”的概率。另一种思考方式是,“测试的所有参数的模型在预测响应方面是否比空模型更好”。tFpF1F
- 我猜你所说的“显着性 ”是值,需要匹配或超过才能使测试“显着”,大概在 0.05 水平。FF
最后一点值得强调的是,这个过程不能脱离其背景。要做好数据分析工作,你必须牢记你的背景知识和研究问题。关于参考类别的选择,我在上面提到了这一点。例如,您注意到鞋码不应该是相关的,但对于Flintstones来说可能是相关的!我只想包括这个事实,因为它似乎经常被遗忘。