我应该对我的数据执行什么回归分析,为什么?

机器算法验证 回归 spss 广义线性模型 最小二乘 固定效应模型
2022-04-17 12:22:18

我是一名法律系学生,研究哪些因素会影响公司的 CSR(企业社会责任GSE_RAW)行为。由于我的学习没有提供任何统计课程,我很难理解我应该对我的数据执行哪种类型的统计分析。在描述了数据之后,我希望你们中的一些人能告诉我更多关于这一点的信息。

已经确定了两组可能影响企业社会责任的因素/变量:特定于公司的和特定于国家的。

首先,公司特定的变量是

  • MKT_AVG_LN: 公司市值
  • SIGN:公司签署的CSR条约数量
  • INCID:公司参与的社会责任事件报告数量

其次,数据集中的 4,000 家公司中的每一家都将总部设在 35 个国家之一。对于每个国家,我收集了一些特定国家的数据,其中包括:

  • LAW_FAM: 国家法律体系的法律家族(法语、英语、斯堪的纳维亚语或德语)
  • LAW_SR:国家公司法对股东的相对保护(例如,在公司违约的情况下)
  • LAW_LE:国家法律体系的相对有效性(价值越高意味着越有效,例如腐败越少)
  • COM_CLA: 衡量内部市场竞争的强度
  • GCI_505: 初等教育质量测量
  • GCI_701: 衡量中等教育质量
  • HOF_PDI:权力距离(更高的价值意味着更多的等级社会)
  • HOF_LTO: 国家时间方向(越高意味着更长期的方向)
  • DEP_AVG: 各国人均国内生产总值
  • CON_AVG: 各国在 2008-2010 年期间的平均通货膨胀率

为了对这个数据进行分析,我把国家层面的数据“提升”到了公司层面。例如,如果比利时的COM_CLA值为 23,则数据集中的所有比利时公司的COM_CLA值都设置为 23。该变量LAW_FAM分为 4 个虚拟变量(LAW_FRALAW_SCALAW_ENGLAW_GER),每个公司的其中一个虚拟变量为 1 .

这一切都会产生这样的数据集:

COMPANY MKT_AVG_LN ... INCID ... LAW_FRA LAW_SCA ... LAW_SR LAW_LE COM_CLA ... etc
----------------------------------------------------------------------------------
   1      1.54          55          0       1          34     65     53
   2      1.44          16          0       1          34     65     53
   3      0.11           2          0       1          34     65     53
   4      0.38          12          1       0          18     40     27
   5      1.98         114          1       0          18     40     27
   .       .             .          .       .           .      .      .
   .       .             .          .       .           .      .      .
 4,000    0.87           9          0       1           5     14     18

在这里,公司 1 到 3 来自同一个国家 A,而公司 4 和 5 来自 B 国。

我的DV,GSE_RAW是评级机构给出的每家公司CSR行为的数值。

  • 我相信国家级变量也称为“分类”变量,因为许多公司对这些变量具有相同的值(在上面的示例中,公司 1 到 3 都具有相同的LAW_FRAto值COM_CLA)。我相信已经发现“分类”变量也称为固定因子。这一切都是真的吗?
  • 由于分类(国家级)变量,我认为 OLS 回归分析在这里不是合适的模型。有人建议使用“广义线性模型”(GLS),将国家级变量用作(固定?)“因素”,将公司级变量用作“协变量”。这个对吗?作为一个子问题:由于国家层面的变量,为什么 OLS 不合适?他们在 OLS 计算中所做的哪些事情导致了回归?

[edit 1]我正在使用 SPSS 进行统计分析

[edit 2]在这里,我尝试使用这些数据创建 GLM。但是,我无法得到“您尚未指定自定义模型”我是否必须在这里选择所有 4 个变量(因为我想要所有 4 个变量的 beta 和显着性水平来构建回归模型)?如果是这样,为什么我必须这样做两次?我在之前的对话框中已经说过DEP_AVGCON_AVG是固定因素并且SIGNINCID是协变量。例如,为什么我要INCID在此处插入协变量,但不将其包含在模型构建对话中?另外,我真的不明白我得到的输出,因为它与普通的 OLS 输出有很大的不同(唯一让我感到有点舒服的输出)。

  • 我现在做正确的分析吗?
  • 如何从中获得回归模型?

在此处输入图像描述

4个回答

变量是否是分类变量仅取决于变量,而不取决于公共值的任何“共享”。在您的情况下,LAW_FAM 是分类的,因为它有四个离散的类别:FRA、SCA、ENG、GER。特别是,LAW_FAM 是名义上的:类别没有排序。您可能有几个国家恰好具有完全相同的 DEP_AVG,但这并不能使 DEP_AVG 成为分类变量。

我建议您查看Multilevel/Hierarchical Models,因为您有分层数据:国家级数据和嵌套在国家/地区内的公司级数据。

您的帖子非常好:您提供了足够的详细信息来帮助我们帮助您。还有一件事可以帮助我们为您指明正确的方向,那就是了解您将使用什么软件进行分析。

编辑:您询问广义线性模型,这些模型是为特定类型的因变量选择的。例如,如果您想要预测分类变量,您将使用逻辑回归(使用 GLM 完成)。

你的情况有点复杂。我们只需要退后一步。

为了让我们运行这个回归,我们需要知道你的研究问题/假设是什么?

您可能不必使用 GLM,但可以从线性回归构建模型并使用下面在 sytnax 中描述的“测试方法”(在 SPSS 的下拉菜单中不可用,仅在语法中可用)。

请运行此语法并让我知道输出是否是您要查找的内容:

数据集激活数据集 1。
回归
/DESCRIPTIVES MEAN STDDEV CORR
SIGN /MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA COLLIN TOL CHANGE ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT GSE_RAW
/METHOD=ENTER DEP_AVG CON_AVG
/ METHOD=ENTER SIGN INCID
/METHOD=TEST (LAW_FRA, LAW_SCA, LAW_ENG, LAW_GER)
/SCATTERPLOT=(*ZPRED ,*ZRESID)
/RESIDUALS HISTOGRAM(ZRESID) NORMPROB(ZRESID)。

好吧,让我直说。为了回答您在此处的较早问题,您正在尝试适应更复杂的混合/多级/分层模型(是的术语)。没有任何使用 SPSS 的经验,这将更加笼统,并通过提供的屏幕截图对 SPSS 正在寻找的内容进行一些猜测(单眼引导盲人等等)。

  1. 分析->混合模型->线性是这里正确的选择。

    • 关于术语的注释-您多次提到 GLM 或 GLS。这不是你想要适应的。GLM“广义线性模型”是指您的响应变量不是正态分布的(例如,成功或失败)。GLS 是我不熟悉的东西。
  2. 您收到的警告消息似乎是因为您没有指定任何效果。您会注意到模型结果仅返回截距的系数。看起来 SPSS 希望您在第一个菜单中声明变量,然后在FixedRandom下声明它们的内容。现在,对于固定与随机(警告:术语不同):

    • 出于我们的目的(显然对于 SPSS'),固定效应是您要插入模型并估计其系数的自变量。所以MKT_AVG_LN, SIGN, etc您进行的所有国家范围内的变量以及所有问题的来源都在这里

      您需要进入“固定”菜单并指定它们。

    • 随机效应是使此标记与 OLS 不同的原因。这就是分组/多层次的东西发挥作用的地方。不是估计这些变量的系数,而是估计协方差结构,该结构在您的模型中施加了进一步的结构,调解了您的国家级变量的非独立性,这些变量被带到了公司一级。这些的结构很快 就会变得非常复杂,但让我们在这里保持简单。

      您将需要一个指示国家/地区的变量(我们称之为COUNTRY)。这应该放在Random->Subjects下

  3. 进一步说明:

    • 看起来因子 = 分类变量和协变量 = 连续变量。我看到你有DEP_AVGCON_AVG低于因素。这些(可能)不是分类变量,应该移动。
    • 看起来COUNTRY, LAW_FAM应该是你唯一的因素。也许其他两个LAW变量也是如此。

正如我之前提到的,我不使用 SPSS,所以这是我在观察事情并希望事情能够解决,同时希望能传授一些关于混合模型如何工作的想法。

我认为您缺少两个关键因素。如果您尝试制作重力模型但不考虑质量或质量间距,那么任何模型都无法正常工作。

http://www.ted.com/talks/geoffrey_west_the_surprising_math_of_cities_and_corporations.html

我就是喜欢站在巨人的肩膀上。尽管我希望自己是个巨人,但在他们的帮助下,我总能看得更远。

您需要公司特定的变量,包括“当前员工人数”、“公司生命周期内所有员工的累计总和”和“公司年龄”。

我还将包括“公司的累计收入”和“当前的总收入”。

现在我不使用SPSS。我不会说它的语言。我确实知道,但是对模型知之甚少。我建议使用随机森林来确定该集合中的哪些变量通知 GSR_Raw。一旦您了解哪些变量没有价值,您就可以将它们从您的模型中删除,并简化您的分析。

在你有一个简化的模型并确定输入通知你的输出之后,你就可以开始尝试拟合模型了。从基础开始。在您确定基本模型没有做“足够好”的工作之前,不要跳入疯狂的东西。