我正在尝试使用UCI信用审批数据集来构建银行的信用审批系统。(本科项目)。但数据集描述说属性名称已更改。
我的目标是使用数据集根据他们提供的数据来决定新的信用请求者请求是否被批准。
我看到这个数据集被广泛使用,但我不知道使用它而不知道属性名称?(我知道可以更改某些属性值以保护机密性)
我在这里缺少什么知识来使用这个数据集?
我正在尝试使用UCI信用审批数据集来构建银行的信用审批系统。(本科项目)。但数据集描述说属性名称已更改。
我的目标是使用数据集根据他们提供的数据来决定新的信用请求者请求是否被批准。
我看到这个数据集被广泛使用,但我不知道使用它而不知道属性名称?(我知道可以更改某些属性值以保护机密性)
我在这里缺少什么知识来使用这个数据集?
我在这里缺少什么知识来使用这个数据集?
通过对数据进行匿名化和更改属性名称,该数据集的提供者将其变成了一种抽象的机器学习练习,其中数据与现实世界的信用审批数据具有相似的品质,因此训练在其上运行良好的模型的方法是可能在现实世界的场景中运行良好。但是,这些模型不能用于生产系统。您无法基于它训练模型,然后输入您在其他地方收集的真实世界数据进行预测。
您仍然可以在此数据上训练模型来预测 A16(类属性)。您可以通过提供测试集来衡量准确性 - 或任何其他指标。您可以以抽象的方式尝试特征工程、特征选择等,而无需应用太多领域知识。您可以尝试不同的模型类、不同的超参数、估算缺失值或交叉验证的不同方法等。
您的项目可以根据测试结果得出关于您采用的方法的结论。您不能做的是使用模拟客户数据探索真实场景。这可能会降低它作为演示的吸引力 - 例如,用户无法准确探索哪些因素可能导致应用程序被批准或不被批准,相反,您只需要显示一些图表来证明您选择了具有良好性能的模型。
我将从您想知道的开始,然后转到注意事项。考虑到使用它们的数据集上的同行评审出版物,您可能可以安全地使用任意数量的决策树算法进行一些黑盒分析(尽管任何学者都会告诉您,这通常也是一个延伸)。正如论文中提到的,C4.5、CART、Random Forrest、adaboost 等都是候选模型。大多数可用于收集变量重要性排名以预测您选择的响应变量,如果您选择预测类变量,您应该能够检查混淆矩阵指标以评估性能。在树上尝试不同的修剪方法以防止过度拟合,甚至可以嵌套模型来构建集成。不要忘记严格验证模型(我建议交叉验证,
但是,我敦促您不要使用这些数据。以下是几个原因:
总之,读论文,用树,害怕未知数据。有龙。