数据挖掘 - 处理回归的数字和分类特征的组合数据集 - 吾爱随笔录

处理回归的数字和分类特征的组合数据集

数据挖掘 Python 回归熊猫

2022-03-04 18:55:29

我有一个具有大量分类特征和一些数值特征的数据集，我想预测任何给定输入是某种二进制输出特征的两种类型之一的概率。我不想解决分类器问题，原因在此链接中有详细说明。

我看过很多关于如何独立处理它们的教程，但不太确定如何一起处理它们。

3个回答

由于此链接中已详细说明的原因，我不想解决分类器问题。

我怀疑该链接是否想告诉您停止执行分类任务-您提出的问题是分类的经典示例。我如何理解您的来源，它不希望您将评分规则用作启发式方法。

对于您描述的问题，我会提出一个简单的朴素贝叶斯方法。为了使您的数值离散，您可以简单地使用两个相邻数值的平均值作为阈值。例如，对于数值列表 [1, 2]，只需将它们拆分为 1.5 的阈值并检查上下。

人们可以通过两种一般方式来解决这个问题：

1）自下而上：考虑以某种方式统一数据

2）自上而下：根据您希望使用的最终模型决定数据的外观

您已经知道要使用哪种型号了吗？如果这是固定的（无论出于何种原因），您已经知道您需要将数据转换为正确的形式，无论是数字形式还是分类形式。

当您用标签固定您的问题时regression，我可以告诉您，您需要将数据全部设为数字，以便回归可以工作。

使数值数据分类的一个例子是将其放入箱中。想象一下，我们有从零到十的值：[0.173, 7.88, 3.91, ...]。您可以简单地说，介于 0.00 和 0.99 之间的值是 A 类，介于 1.00 和 1.99 之间的值是 B 类，依此类推。

[编辑：]

定义要使用的 bin 的一种稍微复杂的方法是根据数据集的一些特征统计数据定义 bin。例如，看看在 python 的Numpy. 在可用的方法中，我发现Doane方法效果最好——不过它取决于你的数据，所以请阅读描述。

以有意义的方式使分类值数值化更多地取决于您的数据。将它们设为数字很容易，但您应该专注于以保留每个变量包含的尽可能多的信息以及您开始使用的每个类别之间的相对关系的方式进行操作。例如，将颜色转换为整数将允许您执行回归，但如果黄色变为 1，紫色变为 10，则模型需要能够了解紫色不一定比黄色大 10 倍，这在回归的上下文中是困难的！

除了上面的答案之外，还有一种更好的方法来做同样的事情，即目标编码，这天真地意味着你正在通过使用一些聚合根据目标变量对你的猫进行编码（开箱即用）

其它你可能感兴趣的问题

上一篇填补缺失值的替代方法？下一篇Knn 和欧几里得距离