当我使用回归模型时,我对默认线性关联的假设持怀疑态度;相反,我喜欢在使用非线性最小二乘回归估计参数模型之前,使用非参数平滑回归(例如广义加性模型、lowess/lowess、运行线平滑器等)探索因变量和解释变量之间关系的函数形式估计非参数模型建议的函数的参数。
考虑在这种方法的非参数平滑回归阶段执行交叉验证的好方法是什么?我想知道我是否可能会遇到这样一种情况,即在随机保留样本 A 中,由“断棍”线性铰链函数近似的关系可能很明显,而保留样本 B 提出的关系可以通过抛物线阈值铰链函数更好地近似。
是否会采取一种非详尽的方法来保留一些随机选择的数据部分,执行非参数回归,解释结果的合理函数形式,并重复这几次(人类可管理的)次数和心理上合理的函数形式?
或者是否会采取一种详尽的方法(例如 LOOCV),并使用某种算法来“平滑所有平滑”并使用最平滑的平滑来告知合理的函数形式?(尽管经过反思,我认为 LOOCV 不太可能导致非常不同的函数关系,因为足够大样本上的函数形式不太可能被单个数据点改变。)
我的应用程序通常需要人工管理数量的预测变量(例如,少数到几十个),但我的样本量从几百到几十万不等。我的目标是生成一个直观交流且易于翻译的模型,该模型可用于具有我以外的数据集的人进行预测,并且不包括结果变量。
非常欢迎参考答案。