机器算法验证 - 我应该对我的数据执行什么回归分析，为什么？ - 吾爱随笔录

我应该对我的数据执行什么回归分析，为什么？

机器算法验证回归 spss 广义线性模型最小二乘固定效应模型

2022-04-17 12:22:18

我是一名法律系学生，研究哪些因素会影响公司的 CSR（企业社会责任GSE_RAW）行为。由于我的学习没有提供任何统计课程，我很难理解我应该对我的数据执行哪种类型的统计分析。在描述了数据之后，我希望你们中的一些人能告诉我更多关于这一点的信息。

已经确定了两组可能影响企业社会责任的因素/变量：特定于公司的和特定于国家的。

首先，公司特定的变量是

MKT_AVG_LN: 公司市值
SIGN：公司签署的CSR条约数量
INCID：公司参与的社会责任事件报告数量

其次，数据集中的 4,000 家公司中的每一家都将总部设在 35 个国家之一。对于每个国家，我收集了一些特定国家的数据，其中包括：

LAW_FAM: 国家法律体系的法律家族（法语、英语、斯堪的纳维亚语或德语）
LAW_SR：国家公司法对股东的相对保护（例如，在公司违约的情况下）
LAW_LE：国家法律体系的相对有效性（价值越高意味着越有效，例如腐败越少）
COM_CLA: 衡量内部市场竞争的强度
GCI_505: 初等教育质量测量
GCI_701: 衡量中等教育质量
HOF_PDI：权力距离（更高的价值意味着更多的等级社会）
HOF_LTO: 国家时间方向（越高意味着更长期的方向）
DEP_AVG: 各国人均国内生产总值
CON_AVG: 各国在 2008-2010 年期间的平均通货膨胀率

为了对这个数据进行分析，我把国家层面的数据“提升”到了公司层面。例如，如果比利时的COM_CLA值为 23，则数据集中的所有比利时公司的COM_CLA值都设置为 23。该变量LAW_FAM分为 4 个虚拟变量（LAW_FRA、LAW_SCA、LAW_ENG、LAW_GER），每个公司的其中一个虚拟变量为 1 .

这一切都会产生这样的数据集：

COMPANY MKT_AVG_LN ... INCID ... LAW_FRA LAW_SCA ... LAW_SR LAW_LE COM_CLA ... etc
----------------------------------------------------------------------------------
   1      1.54          55          0       1          34     65     53
   2      1.44          16          0       1          34     65     53
   3      0.11           2          0       1          34     65     53
   4      0.38          12          1       0          18     40     27
   5      1.98         114          1       0          18     40     27
   .       .             .          .       .           .      .      .
   .       .             .          .       .           .      .      .
 4,000    0.87           9          0       1           5     14     18

在这里，公司 1 到 3 来自同一个国家 A，而公司 4 和 5 来自 B 国。

我的DV，GSE_RAW是评级机构给出的每家公司CSR行为的数值。

我相信国家级变量也称为“分类”变量，因为许多公司对这些变量具有相同的值（在上面的示例中，公司 1 到 3 都具有相同的LAW_FRAto值COM_CLA）。我相信已经发现“分类”变量也称为固定因子。这一切都是真的吗？
由于分类（国家级）变量，我认为 OLS 回归分析在这里不是合适的模型。有人建议使用“广义线性模型”（GLS），将国家级变量用作（固定？）“因素”，将公司级变量用作“协变量”。这个对吗？作为一个子问题：由于国家层面的变量，为什么 OLS 不合适？他们在 OLS 计算中所做的哪些事情导致了回归？

[edit 1]我正在使用 SPSS 进行统计分析

[edit 2]在这里，我尝试使用这些数据创建 GLM。但是，我无法得到“您尚未指定自定义模型”我是否必须在这里选择所有 4 个变量（因为我想要所有 4 个变量的 beta 和显着性水平来构建回归模型）？如果是这样，为什么我必须这样做两次？我在之前的对话框中已经说过DEP_AVG和CON_AVG是固定因素并且SIGN和INCID是协变量。例如，为什么我要INCID在此处插入协变量，但不将其包含在模型构建对话中？另外，我真的不明白我得到的输出，因为它与普通的 OLS 输出有很大的不同（唯一让我感到有点舒服的输出）。

我现在做正确的分析吗？
如何从中获得回归模型？

在此处输入图像描述

4个回答

变量是否是分类变量仅取决于变量，而不取决于公共值的任何“共享”。在您的情况下，LAW_FAM 是分类的，因为它有四个离散的类别：FRA、SCA、ENG、GER。特别是，LAW_FAM 是名义上的：类别没有排序。您可能有几个国家恰好具有完全相同的 DEP_AVG，但这并不能使 DEP_AVG 成为分类变量。

我建议您查看Multilevel/Hierarchical Models，因为您有分层数据：国家级数据和嵌套在国家/地区内的公司级数据。

您的帖子非常好：您提供了足够的详细信息来帮助我们帮助您。还有一件事可以帮助我们为您指明正确的方向，那就是了解您将使用什么软件进行分析。

编辑：您询问广义线性模型，这些模型是为特定类型的因变量选择的。例如，如果您想要预测分类变量，您将使用逻辑回归（使用 GLM 完成）。

你的情况有点复杂。我们只需要退后一步。

为了让我们运行这个回归，我们需要知道你的研究问题/假设是什么？

您可能不必使用 GLM，但可以从线性回归构建模型并使用下面在 sytnax 中描述的“测试方法”（在 SPSS 的下拉菜单中不可用，仅在语法中可用）。

请运行此语法并让我知道输出是否是您要查找的内容：

数据集激活数据集 1。
回归
/DESCRIPTIVES MEAN STDDEV CORR
SIGN /MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA COLLIN TOL CHANGE ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT GSE_RAW
/METHOD=ENTER DEP_AVG CON_AVG
/ METHOD=ENTER SIGN INCID
/METHOD=TEST (LAW_FRA, LAW_SCA, LAW_ENG, LAW_GER)
/SCATTERPLOT=(*ZPRED ,*ZRESID)
/RESIDUALS HISTOGRAM(ZRESID) NORMPROB(ZRESID)。

好吧，让我直说。为了回答您在此处的较早问题，您正在尝试适应更复杂的混合/多级/分层模型（是的术语）。没有任何使用 SPSS 的经验，这将更加笼统，并通过提供的屏幕截图对 SPSS 正在寻找的内容进行一些猜测（单眼引导盲人等等）。

分析->混合模型->线性是这里正确的选择。
- 关于术语的注释-您多次提到 GLM 或 GLS。这不是你想要适应的。GLM“广义线性模型”是指您的响应变量不是正态分布的（例如，成功或失败）。GLS 是我不熟悉的东西。
您收到的警告消息似乎是因为您没有指定任何效果。您会注意到模型结果仅返回截距的系数。看起来 SPSS 希望您在第一个菜单中声明变量，然后在Fixed和Random下声明它们的内容。现在，对于固定与随机（警告：术语不同）：
- 出于我们的目的（显然对于 SPSS'），固定效应是您要插入模型并估计其系数的自变量。所以MKT_AVG_LN, SIGN, etc。您进行的所有国家范围内的变量以及所有问题的来源都在这里
  
  您需要进入“固定”菜单并指定它们。
- 随机效应是使此标记与 OLS 不同的原因。这就是分组/多层次的东西发挥作用的地方。不是估计这些变量的系数，而是估计协方差结构，该结构在您的模型中施加了进一步的结构，调解了您的国家级变量的非独立性，这些变量被带到了公司一级。这些的结构很快就会变得非常复杂，但让我们在这里保持简单。
  
  您将需要一个指示国家/地区的变量（我们称之为COUNTRY）。这应该放在Random->Subjects下
进一步说明：
- 看起来因子 = 分类变量和协变量 = 连续变量。我看到你有DEP_AVG和CON_AVG低于因素。这些（可能）不是分类变量，应该移动。
- 看起来COUNTRY, LAW_FAM应该是你唯一的因素。也许其他两个LAW变量也是如此。

正如我之前提到的，我不使用 SPSS，所以这是我在观察事情并希望事情能够解决，同时希望能传授一些关于混合模型如何工作的想法。

我认为您缺少两个关键因素。如果您尝试制作重力模型但不考虑质量或质量间距，那么任何模型都无法正常工作。

http://www.ted.com/talks/geoffrey_west_the_surprising_math_of_cities_and_corporations.html

我就是喜欢站在巨人的肩膀上。尽管我希望自己是个巨人，但在他们的帮助下，我总能看得更远。

您需要公司特定的变量，包括“当前员工人数”、“公司生命周期内所有员工的累计总和”和“公司年龄”。

我还将包括“公司的累计收入”和“当前的总收入”。

现在我不使用SPSS。我不会说它的语言。我确实知道，但是对模型知之甚少。我建议使用随机森林来确定该集合中的哪些变量通知 GSR_Raw。一旦您了解哪些变量没有价值，您就可以将它们从您的模型中删除，并简化您的分析。

在你有一个简化的模型并确定输入通知你的输出之后，你就可以开始尝试拟合模型了。从基础开始。在您确定基本模型没有做“足够好”的工作之前，不要跳入疯狂的东西。

其它你可能感兴趣的问题

上一篇如何确定拉丁超立方抽样的样本量？下一篇类似于泊松分布的分布？