分类任务中的决策边界

数据挖掘 机器学习 分类 数学 线性可分
2022-03-01 14:49:24

我有来自双变量正态分布的 1000 个数据点N平均(0,0)和方差σ12=σ22=10协方差为0. 另一个双变量正态分布还有 20 个以上的点,均值(15,15)有方差σ12=σ22=1并且协方差为0再次。我使用最小二乘法计算决策边界的参数θ0+θ1x1+θ2x2=0, 那是

θ=(XTX)1(XTy)
在哪里y是带有标签的列矩阵+1第一堂课的分数和1从第二个点开始。结果图如下:

在此处输入图像描述

很明显,决策边界不正确,因为它直接通过了类1因此它不会正确分类可能源自同一分布的未来点。现在,问题是为什么会发生这种情况。我知道这里的主要问题是数据集的不平衡,因为有1000一个班级的分数,但只有20从另一个。从直觉上讲,这是有道理的。

如果可能的话,我希望有人帮助我了解如何将这种不平衡问题纳入最小化最小二乘成本函数的过程中

J(θ)=n=1200(ynθTxn)2

事实如何只有20第二类的点导致最小化任务J(θ)θ=0失败”?这些点的数量不足如何导致这条线直接通过它们?如果有一些数学方法可以向我展示这一点,那就太好了,因为我已经有了直觉。

2个回答

对于这些数据点,仅在 x1 轴上的阈值将完美地分隔两个分布。您可以拟合决策树桩来计算决策边界的单个参数。

我认为这是一个功能,而不是一个错误。

进入分类,不知道的值x1或者x2,你的观点更有可能属于+11. 因此,你不应该只需要体面的证据来证明一个点是1. 你应该需要压倒性的证据。

这红色+1群,松散地说,存在于广场[10,10]×[10,10]. 最接近的蓝色1点大约在(12,15),这距离+1区。决策边界告诉你(12,15)距离不够远+1区域来克服高“先验”概率+1. 为了足够远离+1不归类为的区域+1,你需要高于约(15,17).

如果你模拟100进而200进而500进而1000蓝色的1要点与相同的1000红色的+1点,您将看到决策边界向您期望它在两组之间的位置漂移。

如果你使用逻辑回归来预测类成员概率,你可以用这种“先验”(和“后验”)概率的想法做更多的事情。虽然这可能需要一个新问题,但它可能更符合您想要的“数学”解释。