首先,我建议对只有 一个的陈述保持警惕通常是件好事做某事的方法。将获得的样本拆分为“训练”和“测试”数据集是许多机器学习/数据科学应用程序中的常用方法。通常,这些建模方法对有关基础数据生成过程的假设检验不太感兴趣,也就是说,它们往往有些不理论。事实上,大多数这类训练/测试拆分只是想看看模型在预测性能方面是否过拟合。当然,也可以使用训练/测试方法来查看给定模型是否根据哪些参数“显着”进行复制,或者查看参数估计值是否在两种情况下都在预期范围内。
从理论上讲,验证模型或使模型无效是科学应该做的事情。独立研究人员,分别检查、生成和测试假设,这些假设支持或反驳关于为什么或在什么情况下会发生可观察现象的理论的论点 - 简而言之就是科学事业(或至少在一个过长的句子中)。因此,为了回答您的问题,对我来说,即使是训练/测试拆分也不是“验证”模型。这需要多年研究同一组现象的独立研究人员收集的证据的重要性。不过,我承认这可能在语义上有所不同,即我认为模型验证的含义与术语验证在应用设置中的含义...
根据您的数据和建模方法,从统计的角度来看,将样本分成训练集和测试集可能并不总是合适的。例如,小样本可能特别难以应用这种方法。此外,某些分布可能具有某些特性,即使使用相对较大的样本也难以对其进行建模。您的零膨胀案例可能符合后一种描述。如果目标是获得关于一组关系或被认为可以解释某些现象的潜在过程的“真相”的近似值,那么通过故意采用动力不足的方法来测试给定的假设,您将不会得到很好的服务。因此,也许第一步是执行功效分析,看看您是否甚至可能在子集数据中复制感兴趣的发现。
另一种选择是指定几个模型,看看它们是否“更好”地解释了观察到的数据。这里的目标是在一组合理的替代方案中确定最佳模型。这是一个相对的,而不是绝对的,关于你的模型的论点。本质上,您承认可能有其他模型可以用来解释您的数据,但是您的模型是经过测试的一组替代方案中最好的(至少您希望如此)。集合中的所有模型,包括您的假设模型,都应具有理论基础;否则你冒着建立一堆统计稻草人的风险。
还有贝叶斯因子,您可以在其中计算模型提供的证据权重,给定您的数据,用于与替代方案相关的特定假设。
这远不是一个详尽的选项列表,但我希望它有所帮助。我现在要离开肥皂盒了。请记住,每个已发表的关于人类行为的研究中的每个模型都是不正确的。几乎总是存在相关的遗漏变量、未建模的交互作用、不完全抽样的总体,以及只是简单的旧抽样错误,混淆了潜在的真相。