我为博士论文收集了数据,需要帮助了解如何制定路线图来进行分析和统计分析。博士学位本身不是统计学或机器学习,但我想了解分析高级学位数据必须遵循的步骤和分析类型是什么?一般来说,我应该如何处理这样的问题?
在我收集的数据中,有 623 个观察值,包括一个连续因变量和 13 个自变量(连续、分类和有序),它们是根据研究人员的经验和文献回顾定义的。
我考虑计划做一些回归分析来预测因变量并研究其上的有效因素(如果它们是正的、负的以及它们的大小)。我尝试了多元线性回归,包括对自变量的不同转换。另一方面,我不确定是否应该通过时间研究每个自变量并在时间范围内预测它们的值?
到目前为止,这是我脑海中的步骤:
绘制不同自变量与因变量的散点图以定义异常值并检查模型对于系数是否也是线性的
去除潜在的异常值
将数据拆分为两个数据集以构建模型并在此之后对其进行验证。
如果模型是线性的,那么:
执行多元线性回归
执行包括不同变换的多元线性回归以增强模型
验证模型
进行分位数回归
做监督学习机等。
如果模型不是线性的,我可能需要使用非线性统计技术。
任何反馈将不胜感激。我的目标是为这部分工作建立一个清晰而稳健的路线图。