我正在运行 GLM 和 GAM,但我找不到关于是否应该平衡数据的明确答案。
我试图获得有用的描述模型,而不是预测模型。所以我没有将我的数据分成训练和测试。有两个原因,我认为这没有必要(因为它不是预测模型),而且我没有大量的数据(男性 200 个样本,女性 100 个样本)。我正在调查哪些因素 (10) 会影响心力衰竭后的死亡率。
对于某些因素,我有很大的不平衡。例如,我将性别数据分开,97% 的女性是非吸烟者。
最好是忽略这个变量还是尝试一些平衡技术?因为它可能只是代表现实世界,所以我不要管它吗?根据我的阅读,平衡数据意味着模型可能不再反映现实。但就女性吸烟者而言,我似乎没有足够的数据来了解吸烟是否会影响女性心力衰竭后的死亡率。
我想应用混淆矩阵,但我没有预测,所以它似乎不适用。