如何使用更改属性名称的数据集?

数据挖掘 数据挖掘 数据集 预处理
2022-02-11 08:41:53

我正在尝试使用UCI信用审批数据集来构建银行的信用审批系统。(本科项目)。但数据集描述说属性名称已更改。

我的目标是使用数据集根据他们提供的数据来决定新的信用请求者请求是否被批准。

我看到这个数据集被广泛使用,但我不知道使用它而不知道属性名称?(我知道可以更改某些属性值以保护机密性)

我在这里缺少什么知识来使用这个数据集?

2个回答

我在这里缺少什么知识来使用这个数据集?

通过对数据进行匿名化和更改属性名称,该数据集的提供者将其变成了一种抽象的机器学习练习,其中数据与现实世界的信用审批数据具有相似的品质,因此训练在其上运行良好的模型的方法是可能在现实世界的场景中运行良好。但是,这些模型不能用于生产系统。您无法基于它训练模型,然后输入您在其他地方收集的真实世界数据进行预测。

您仍然可以在此数据上训练模型来预测 A16(类属性)。您可以通过提供测试集来衡量准确性 - 或任何其他指标。您可以以抽象的方式尝试特征工程、特征选择等,而无需应用太多领域知识。您可以尝试不同的模型类、不同的超参数、估算缺失值或交叉验证的不同方法等。

您的项目可以根据测试结果得出关于您采用的方法的结论。您不能做的是使用模拟客户数据探索真实场景。这可能会降低它作为演示的吸引力 - 例如,用户无法准确探索哪些因素可能导致应用程序被批准或不被批准,相反,您只需要显示一些图表来证明您选择了具有良好性能的模型。

我将从您想知道的开始,然后转到注意事项。考虑到使用它们的数据集上的同行评审出版物,您可能可以安全地使用任意数量的决策树算法进行一些黑盒分析(尽管任何学者都会告诉您,这通常也是一个延伸)。正如论文中提到的,C4.5、CART、Random Forrest、adaboost 等都是候选模型。大多数可用于收集变量重要性排名以预测您选择的响应变量,如果您选择预测类变量,您应该能够检查混淆矩阵指标以评估性能。在树上尝试不同的修剪方法以防止过度拟合,甚至可以嵌套模型来构建集成。不要忘记严格验证模型(我建议交叉验证,

但是,我敦促您不要使用这些数据。以下是几个原因:

  1. 诊断噩梦。几乎所有的建模技术都依赖于某些假设。可能破坏大多数模型的一些常见问题是自相关、异方差和多重共线性的存在。违反这些,大多数模型都会变得不稳定。您可以尝试通过绘制 ACF 和 PACF、丢弃高度相关的变量或以某种方式将它们集中在一起来控制这一点,仅举几例。但是这些都有问题。丢弃高度相关变量的问题在于,您可能会丢弃实际上不违反任何内容的最重要的关系!或者,假设您的数据是一个多元时间序列?PACF 不再以相同的方式进行解释。与该数据集一起使用的树相当健壮,但并不完美。它们在文学作品中的使用可能意味着您可以忽略这一点,但要小心,因为一些论文明确使用了不起作用的数据来指出算法如何破坏。记住基本规则:垃圾进,垃圾出。这里最好的建议是阅读论文(尽管这通常不是你可以依靠其他数据的东西)。
  2. 因果关系是无法检测的。盲目的数据几乎不可能在时间上跟踪事物,这意味着该模型很可能最终在其预测中使用仅在事件发生后才知道的变量。从概念上讲,这不是很有用,除非您的模型仅用于填充已收集数据中的缺失位。
  3. 解释。这可能适用于学校项目,但在大多数情况下,解释就是一切。问这个问题:客户(在这种情况下,信用公司)可以用你的分析做什么?没有办法知道屏蔽数据。假设您使用决策树构建了一个黑盒模型。它在预测结果方面做得非常出色。所以,你把它放在上面,然后把它发送给客户。但是当他们打开它,重命名变量时会发生什么?它可能是无用的,你无法知道。您可能正在预测一个不重要的变量,或者将注意力吸引到完全显而易见的“洞察力”上。分析师的价值在于他带来了什么,而不是他使用的模型。

总之,读论文,用树,害怕未知数据。有龙。