我正在做一个使用遗传数据的项目。该数据集有数千个预测变量,这些变量都是二进制的(这个人的遗传密码中的某个位置是否有某个字母:是/否)。我正在尝试使用这些预测器进行回归,试图预测人的身高。
因为每个预测变量只能有两个值,所以我看不出除了通过变量交互之外怎么会有任何非线性效应。
这里有我遗漏的非线性吗?
我也在考虑类似基于树的模型(比如随机森林)。我了解基于树的模型如何通过根据其他预测变量的值为某些预测变量分配不同的效果(不同的 beta)来优于线性回归。但我称之为“捕获变量交互”。当所有预测变量都是二元时,是否有任何论据可以说基于树的模型正在“捕获非线性效应”?
还有另一个相关的问题:例如,使用不同的 SVM 内核会产生什么影响?