当不是统计学家或数据科学家时,如何开始为学术项目分析和建模数据

数据挖掘 数据集 预测建模 数据清理 线性回归
2022-03-14 16:07:14

我为博士论文收集了数据,需要帮助了解如何制定路线图来进行分析和统计分析。博士学位本身不是统计学或机器学习,但我想了解分析高级学位数据必须遵循的步骤和分析类型是什么?一般来说,我应该如何处理这样的问题?

在我收集的数据中,有 623 个观察值,包括一个连续因变量和 13 个自变量(连续、分类和有序),它们是根据研究人员的经验和文献回顾定义的。

我考虑计划做一些回归分析来预测因变量并研究其上的有效因素(如果它们是正的、负的以及它们的大小)。我尝试了多元线性回归,包括对自变量的不同转换。另一方面,我不确定是否应该通过时间研究每个自变量并在时间范围内预测它们的值?

到目前为止,这是我脑海中的步骤:

  1. 绘制不同自变量与因变量的散点图以定义异常值并检查模型对于系数是否也是线性的

  2. 去除潜在的异常值

  3. 将数据拆分为两个数据集以构建模型并在此之后对其进行验证。

    如果模型是线性的,那么:

  4. 执行多元线性回归

  5. 执行包括不同变换的多元线性回归以增强模型

  6. 验证模型

  7. 进行分位数回归

  8. 做监督学习机等。

如果模型不是线性的,我可能需要使用非线性统计技术。

任何反馈将不胜感激。我的目标是为这部分工作建立一个清晰而稳健的路线图。

1个回答

通常,定量分析是根据研究的目标来计划和执行的。着眼于研究目标和相应的研究问题,研究人员将提出一个模型(或几个模型)和一组与模型相关的假设。模型及其元素的类型通常决定(建议)在特定情况下有意义的定量方法。例如,如果您的模型包含潜在变量,则您必须使用适当的方法来执行数据分析(即结构方程建模)。否则,您可以应用各种其他方法,例如时间序列分析,或者正如您提到的,多元回归和机器学习。有关潜变量研究工作流程的更多详细信息,另请参阅我的相关答案中的第 3 节。

最后一点:无论您使用什么方法,请充分注意以下两个非常重要的方面——执行全面的探索性数据分析 (EDA)(请参阅我的相关答案)并尝试以可重复的研究方式设计和执行您的分析(请参阅我的相关答案)。