完全披露:这是家庭作业。我已经包含了数据集的链接(http://www.bertelsen.ca/R/logistic-regression.sav)
我的目标是最大限度地预测该数据集中的贷款违约者。
到目前为止,我提出的每个模型都预测 >90% 的非违约者,但 <40% 的违约者使总体分类效率约为 80%。那么,我想知道变量之间是否存在交互作用?在逻辑回归中,除了测试每个可能的组合之外,还有没有办法识别潜在的交互作用?或者,一种提高违约者分类效率的方法。
我被困住了,任何建议都会对您选择单词、R 代码或 SPSS 语法有所帮助。
下面的直方图和散点图概述了我的主要变量(二分变量除外)
主要变量的描述:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
附加变量只是上述的转换。我还尝试将一些连续变量转换为分类变量并在模型中实现它们,但没有运气。
如果您想将其快速放入 R 中,这里是:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)