如何使用因子分析得出的变量作为逻辑回归中的预测变量?

机器算法验证 物流 因子分析
2022-03-18 03:44:26

语境

我有一项调查询问了 11 个关于自我效能的问题。每个问题都有 3 个回答选项(不同意、同意、非常同意)。九个问题是关于自尊的。我对11个自我效能项目进行了因子分析,并提取了两个因子。

x1x11表示调查中的 11 个自我效能问题,以及f1(x1x6) ,f2(x7x11) 表示我从因子分析中得到的两个因子。 y是一个因变量。

然后我创建了两个新变量:

   f1=mean(x1 to x6); 
   f2=mean(x7-x11). 

所以逻辑回归看起来像这样:

   y=a+bf1+cf2+....

我的问题:

  • 我可以在我的多元逻辑回归模型中使用这两个因素作为预测变量吗?
  • 我是否应该计算每个因素中每个项目的平均值并将该平均值用作逻辑回归模型中的连续变量?
  • 这是对因子分析的适当使用吗?
4个回答

如果我理解正确,您正在使用 FA 从您的 11 项问卷中提取两个分量表。它们应该反映自我效能的某些特定方面(例如,自我调节与自我肯定效能)。

然后,您可以自由地使用在两个分量表上计算的单个平均(或总和)分数作为回归模型中的预测变量。换句话说,您现在使用的是 2 个子分数,而不是考虑 11 个项目分数,按上述计算每个人的分数。唯一的假设是这些分数反映了一个人在“假设结构”或潜在变量上的位置,定义为一个连续的量表。

正如@JMS 所说,您可能会进一步澄清其他问题,尤其是完成了哪种 FA。一个微妙的问题是标准回归方法无法解释测量误差。另一种方法是使用结构方程模型或任何潜在变量模型(例如来自IRT文献的模型),但这里的回归方法应该提供一个很好的近似值。序数变量(李克特式项目)的分析已在本网站的其他地方进行了讨论。

但是,在当前实践中,您的方法是验证问卷或构建评分规则时常见的方法:我们使用加权或未加权的项目分数组合(因此,它们被视为数字变量)来报告潜在特征上的单个位置( s) 正在考虑中。

使用因子分数作为预测因子

是的,您可以在后续分析中使用源自因子分析的变量作为预测变量。

其他选项包括运行某种形式的结构方程模型,您可以在其中将潜在变量与项目或项目捆绑作为观察变量。

均值作为量表分数

是的,在您的情况下,平均值将是计算量表分数的典型选项。如果您有任何颠倒的项目,您必须处理此问题。

您也可以使用因子保存分数而不是取平均值。尽管当所有项目在每个因素上加载得相当好并且所有项目都在相同的规模上并且所有项目都用积极的措辞时,平均和因素保存分数之间几乎没有太大差异。

您还可以查看承认比例顺序性质的方法,因此不要将比例选项视为同等遥远。

chl 和 Jeromy 对理论部分的一切都说了……如果你没有使用你用 FA 识别的变量的总和/平均值,你可以使用 FA 的分数。

关于您使用的语法,您可能正在使用 SAS。因此,要正确使用因子分析,您必须使用观察分数而不是变量的平均值。

您可以在代码下方找到通过 FA 获得 2 个因素的分数。您必须使用的分数将被 SAS 称为 Factor1, Factor2, ...。

这是一个 2 个步骤... 1)首先 FA,然后 2)调用 proc 分数来计算分数。

proc factor 
    data = Data
    method = ml 
    rotate = promax 
    outstat = FAstats
    n=3
    heywood residuals msa score
    ;
    var x:;
run;

proc score data=Data score=FAstats out=MyScores; 
    var x:;
run; 

要使用的变量是 MyScores 数据集中的 Factor1、Factor2、...。

具有离散(在您的情况下为多分)清单变量的连续潜在变量是项目响应分析的一部分。R 中的包 'ltm' 涵盖了各种此类模型。我请你参考这篇论文,它处理完全相同的问题。