数据挖掘 - 非线性回归 - 吾爱随笔录

数据挖掘线性回归目标函数

2022-02-19 05:09:54

例如，假设我的数据集如下所示：

[[x,y,z],
 [1,2,5],
 [2,3,8],
 [4,5,14]]

从这些微小的数据集中很容易找到 theta 参数。这是 theta = [1,2,0]

z = 1*x + 2*y + 0

但是如果我的数据集是非线性的。认为：

[[x,y,z],
 [1,2,6],
 [2,3,15]]]

如果我选择映射函数为：z = x y+y y

它将返回 theta 参数：

theta = [1,1,0]

所以我的交易是如何为随时间变化的数据集选择这种映射函数。与推荐系统一样，用户评分会随着时间而变化，以降低成本。我最近经历了正则化。有没有其他降低成本的想法。

1个回答

要回答您关于非线性回归的第一个问题：

我相信您为非线性回归选择映射函数的问题可以通过使用支持向量机来解决。

SVM 可以在内核诱导的特征空间中学习非线性映射函数。这意味着在 svms 中，基本思想是使用非线性映射（内核）将输入数据 X 映射到某个高维特征空间 f 中，然后在该特征空间中进行线性回归。

要了解有关非线性回归和内核的更多信息，您可以阅读这篇文章。

其次，正则化是一种用于解决过拟合问题的技术。这通常发生在您为训练集使用非常密集的模型或训练模型的步骤太多时。在这种情况下，虽然您的训练集上的准确度很高，但在未见数据的情况下表现很差。因此，当您添加正则化时，它有助于降低成本函数。

正则化有两种类型，L1 和 L2。不同之处在于权重系数的力量。这些对于基于 SVM 的模型来说应该足够了。

为了减少过度拟合导致的高成本，您还可以使用 BatchNormalization 和 Dropout 算法。

希望这可以帮助：）

其它你可能感兴趣的问题