我真的是统计学的新手,真的需要一些帮助!我在这里找到,或在任何书中找到我的问题的答案。如果我错过了,对此感到抱歉,请您与我分享链接吗?
在这里,简单介绍一下我的研究背景:
我收集了一组 20 个自变量(虚拟变量和数值变量),我们称它们为 A、B、C...T,它们是生病的不同潜在原因。我有 60 个家庭,他们在一年中患有疾病 1、疾病 2 和疾病 3。我有三个因变量(S1、S2、S3)来表示每个家庭的不同成员生病的天数百分比一年。
我的 20 个自变量可以用更少的因素(饮食、生活环境等)来解释。所以,我做了一个主成分分析(旋转因子、最大方差等),它给了我 5 个因子。到目前为止,一切都运行良好,即使某些变量同时加载到不同的因子中,它们的最强加载(0.6 或更高)也可以在一个特定变量中清楚地识别出来。所以我有:
因子 1 = B、D、E、F、K、N、O 和 S 因子 2 = C、G 和 T 因子 3 = H、J 和 P 因子 4 = A、I 和 M 因子 5 = L、Q 和 R
B、H、M、O、P、S 和 T 加载的因素不止一个,但其重要性不显着。解释的总方差为 63%,我有很好的特征值(分别为:5.1、2.1、2.0、1.9 和 1.6)
从这个 PCA 中,我保存了回归的因子分数。(在 SPSS 中,我在事实分析中使用:分数 --» 保存为变量 --» 回归)我知道 SPSS 中的回归因子分数是标准化的,平均值 = 0,标准偏差 = 1。分数为 0因此,在一个因素上意味着该变量对相关属性重要性的评级接近我样本的平均值。我不能在我的回归中直接使用它们。
这里是我需要帮助的地方...
我被告知将因子载荷与我的原始变量相乘,然后将它们相加以获得我在回归中使用的新变量。所以我在spss中做了闲散的事情:
*[(factor scores 1) x B] + [(factor scores 1) x D] + [(factor scores 1) x E] + [(factor scores 1) x F] + [(factor scores 1) x K] + [(factor scores 1) x N] + [(factor scores 1) x O] + [(factor scores 1) x S] = N-Var1* (new variable 1)
*[(factor scores 2) x C] + [(factor scores 2) x G] + [(factor scores 2) x T] = N-Var2
[(factor scores 3) x H] + [(factor scores 3) x J] + [(factor scores 3) x P] = N-Var3
[(factor scores 4) x A] + [(factor scores 4) x I] + [(factor scores 4) x M] = N-Var4
[(factor scores 5) x L] + [(factor scores 5) x Q] + [(factor scores 5) x R] = N-Var5*
然后,我使用N-Var1、N-Var2、N-Var3、N-Var4和N-Var5作为自变量,在第一次回归中解释 S1 的疾病程度模型,然后对 S2 和S3,仍然使用相同的自变量来解释模型(N-Var1,...)。我想测量最坏的因素(= 对依赖的最强影响)。使我的人群更容易患上 S1(最坏的情况)并鼓励 S2 和 S3 的发展(我希望看到许多因素对 S1 产生强烈影响)。但是,当我的 PCA 工作正常时(我确信),我的回归结果根本没有意义(我也确信)。
这是否意味着我在转换因子分数时做错了什么?或者只是没有模型可以解释 S1、S2 和 S3?