数据挖掘 - 分类任务中的决策边界 - 吾爱随笔录

我有来自双变量正态分布的 1000 个数据点 $\mathcal{N}$ 平均 $(0,0)$ 和方差 $\sigma_1^2=\sigma_2^2=10$ 协方差为 $0$ . 另一个双变量正态分布还有 20 个以上的点，均值 $(15,15)$ 有方差 $\sigma_1^2=\sigma_2^2=1$ 并且协方差为 $0$ 再次。我使用最小二乘法计算决策边界的参数 $\theta_0 + \theta_1 x_1 + \theta_2 x_2=0$ ，那是

θ = (X^{T} X)^{- 1} (X^{T} y)

$\theta = (X^T X)^{-1}(X^Ty)$ 在哪里

y

$y$ 是带有标签的列矩阵

+ 1

$+1$ 第一堂课的分数和

- 1

$-1$ 从第二个点开始。结果图如下：

很明显，决策边界不正确，因为它直接通过了类 $-1$ 因此它不会正确分类可能源自同一分布的未来点。现在，问题是为什么会发生这种情况。我知道这里的主要问题是数据集的不平衡，因为有 $1000$ 一个班级的分数，但只有 $20$ 从另一个。从直觉上讲，这是有道理的。

如果可能的话，我希望有人帮助我了解如何将这种不平衡问题纳入最小化最小二乘成本函数的过程中

J (θ) = \sum_{n = 1}^{200} (y_{n} - θ^{T} x_{n})^{2}

$J(\theta)=\sum_{n=1}^{200}(y_n-\theta^T x_n)^2$

事实如何只有 $20$ 第二类的点导致最小化任务 $\frac{\partial J(\theta)}{\partial \theta}=0$ 失败”？这些点的数量不足如何导致这条线直接通过它们？如果有一些数学方法可以向我展示这一点，那就太好了，因为我已经有了直觉。