向教授隐藏回归模型(回归战舰)

机器算法验证 自习 多重回归 估计 线性模型
2022-03-18 11:50:42

我正在做一个家庭作业,我的教授希望我们创建一个真正的回归模型,模拟一个数据样本,他将尝试使用我们在课堂上学到的一些技术来找到我们真正的回归模型。我们同样必须对他给我们的数据集做同样的事情。

他说他已经能够为过去试图欺骗他的所有尝试生成一个非常准确的模型。有一些学生创建了一些疯狂的模型,但可以说他能够产生一个更简单的模型就足够了。

我怎样才能为他找到一个棘手的模型?我不想通过做 4 个二次项、3 个观察和巨大的方差来变得超级便宜?我怎样才能生成一个看似无害的数据集,它下面有一个坚韧的小模型?

他只需遵循 3 条规则:

  1. 您的数据集必须有一个“Y”变量和 20 个标记为“Y”、“X1”、...、“X20”的“X”变量。

  2. 您的响应变量必须来自满足以下条件的线性回归模型: 其中Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21

  3. 用于创建的所有变量都包含在您的数据集中。XY

应该注意的是,并非所有 20 个 X 变量都需要在您的真实模型中

我正在考虑使用Fama-French 3 因子模型之类的东西,并让他从股票数据(SPX 和 AAPL)开始,并且必须将这些变量转换为连续复合收益,以便更加模糊它。但这让我在第一次观察中缺少值,它是时间序列(我们还没有在课堂上讨论过)。

不确定这是否是发布此类内容的合适位置。我觉得它可以引起一些很好的讨论。

编辑:我也不是特别要求“预建”模型。我对统计中的主题/工具更好奇,这些主题/工具将使某人能够解决这个问题。

4个回答

只需使误差项比解释部分大得多。例如:,其中当然,你必须记住你的种子是什么,这样你才能向你的教授证明你是对的,他是错的。yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

祝你好运,用这个噪声/信号比识别相位。

如果他的目标是恢复创建的真实数据生成过程 Y,愚弄你的教授是相当微不足道的。举个例子,考虑干扰ϵiN(0,1)以及以下结构方程:

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

注意真正的 DGPY, 其中仅包括X1, 满足条件 2。条件 3 也满足,因为X1是唯一要创建的变量Y你正在提供X1X2.

然而,你的教授无法判断他是否应该只包括X1只要X2或者X1X2 恢复真实的DGPY(如果您最终使用此示例,请更改变量的数量)。最有可能的是,他只会给你所有变量的回归作为答案,因为它们都会显示为重要的预测变量。如果愿意,您可以将其扩展到 20 个变量,您可能想在此处查看此答案并在此处查看辛普森悖论机

注意所有有条件的期望E[Y|X1],E[Y|X2]或者E[Y|X1,X2] 是正确指定的条件期望,但仅E[Y|X1]反映了真实的DGPY. 因此,在你的教授不可避免地失败了任务之后,他可能会争辩说他的目标只是恢复任何有条件的期望,或者得到最好的预测Y等等。你可以反驳说这不是他所说的,因为他说:

变量 Y 必须来自满足 (...)用于创建 Y (...) 您的真实模型(... ) 的变量的线性回归模型

你可能会在课堂上引发关于因果关系、真正的 DGP意味着什么以及一般可识别性的良好讨论。

使用具有多重共线性和异方差的变量,例如收入与年龄:做一些痛苦的特征工程,提供缩放问题:给一些稀疏的 NA。线性部分确实使它更具挑战性,但它可能会变得痛苦。此外,异常值会提前增加他的问题。

是否允许交互条款?如果是这样,将所有低阶系数设置为 0,并从 N 阶交互作用中构建整个模型(例如,像X5X8X12X13)。对于 20 个回归变量,可能的交互作用的数量是天文数字,很难找到你所包含的那些。