我正在做一个家庭作业,我的教授希望我们创建一个真正的回归模型,模拟一个数据样本,他将尝试使用我们在课堂上学到的一些技术来找到我们真正的回归模型。我们同样必须对他给我们的数据集做同样的事情。
他说他已经能够为过去试图欺骗他的所有尝试生成一个非常准确的模型。有一些学生创建了一些疯狂的模型,但可以说他能够产生一个更简单的模型就足够了。
我怎样才能为他找到一个棘手的模型?我不想通过做 4 个二次项、3 个观察和巨大的方差来变得超级便宜?我怎样才能生成一个看似无害的数据集,它下面有一个坚韧的小模型?
他只需遵循 3 条规则:
您的数据集必须有一个“Y”变量和 20 个标记为“Y”、“X1”、...、“X20”的“X”变量。
您的响应变量必须来自满足以下条件的线性回归模型: 其中和。
用于创建的所有变量都包含在您的数据集中。
应该注意的是,并非所有 20 个 X 变量都需要在您的真实模型中
我正在考虑使用Fama-French 3 因子模型之类的东西,并让他从股票数据(SPX 和 AAPL)开始,并且必须将这些变量转换为连续复合收益,以便更加模糊它。但这让我在第一次观察中缺少值,它是时间序列(我们还没有在课堂上讨论过)。
不确定这是否是发布此类内容的合适位置。我觉得它可以引起一些很好的讨论。
编辑:我也不是特别要求“预建”模型。我对统计中的主题/工具更好奇,这些主题/工具将使某人能够解决这个问题。