我的导师希望我撰写并提交一份报告预测模型的学术论文,但没有任何验证分数。
我在教科书或互联网上读到的所有内容都说这是错误的,但是在任何情况下只报告火车分数是有意义的吗?
背景
该模型是由我们团队中的某个人“手动”拟合的,对从我们整个数据集中提取的特征进行目视检查。它是基于从一些非常非线性和高维数据中提取的手工特征的线性模型。线性模型基于不到 50 个特征,但这些特征是从数千个特征中提取的。我们没有任何数据可用作验证。
我的导师希望我撰写并提交一份报告预测模型的学术论文,但没有任何验证分数。
我在教科书或互联网上读到的所有内容都说这是错误的,但是在任何情况下只报告火车分数是有意义的吗?
该模型是由我们团队中的某个人“手动”拟合的,对从我们整个数据集中提取的特征进行目视检查。它是基于从一些非常非线性和高维数据中提取的手工特征的线性模型。线性模型基于不到 50 个特征,但这些特征是从数千个特征中提取的。我们没有任何数据可用作验证。
你是对的:体面的期刊/会议不太可能接受未经适当评估的论文。此外,模型是手工制作的,这可能意味着它几乎不可复制,对吧?而且我猜你不能做交叉验证?
我认为需要非常有力的论据来证明没有科学验证且无法复制的贡献的合理性。我能想到的唯一方法是:
我不确定你在哪个领域工作。然而,有些学术领域的验证是不寻常的。一个突出的例子是计量经济学。原因是您通常会提出一个理论模型,并尝试将这个“数据生成过程”转化为可以凭经验估计的模型。重要的是,这些模型并非旨在进行预测。他们的目的是统计推断。通常使用非常简单的统计模型(线性回归、logit),因为在那里很容易看到“边际效应”和方差。
然而,关于预测模型,没有验证集的想法对我来说听起来有点奇怪。无论如何,您都应该查看您所在领域的相关文献。一个深思熟虑的文献综述肯定会给你一个很好的线索。
这里最可能的问题与
五十个特征,但这些特征是从数千个特征中提取的
如果这些特征是根据数据分析前的理论选择的,并且没有考虑其他选择,那么拟合数据的线性模型可能有力地证明该理论是合理的。
但是,由于从大型特征集中进行选择以使其拟合而拟合良好的线性模型很可能是过拟合的。在这种情况下,您绝对需要一个保留测试数据集,因为您已使用初始数据形成假设,并且根本没有有效性证明。
我不能建议你是否提交论文。可能有一些方法可以让你清楚地表明这项工作建立了一个假设并且没有验证它(但不要对验证缺乏严谨性进行歌舞,因为那样你会破坏你自己的提交)。
我认为只要你不试图混淆缺乏后续工作,并且准确地呈现迄今为止的结果,那么它就是一个公平的提交 - 如果审稿人想要看到一些验证,它可能会被拒绝,或者它可能被接受,并且需要在第二篇论文中验证或反驳模型的后续工作。这可能是你的工作,也可能是另一个团队的工作。
这些场景的好坏取决于您所在领域的总体运作方式。也许在https://academia.stackexchange.com/上询问一些相关细节以评估您的反应,因为在某些方面这是一个人的问题 - 如何取悦您的导师,同时保持对您的工作和职业发展的自豪感(这在转变取决于取悦你的主管和客观地表现出色的工作)。
你的导师可能仍然愿意讨论这项工作的技术优点。也许他们还没有完全理解您所看到的对模型构建方式的影响。但是,他们可能完全理解这一点,并且可能能够从他们的角度解释在该项目的早期预验证阶段发布的优点。