预测线性函数的参数

数据挖掘 参数估计
2022-02-11 12:24:04

我的问题似乎很琐碎,但我不能完全理解它。我也知道这篇文章征求意见和诀窍,但不知道还有什么要问的。我确实有相当多的经验来解决甚至有些困难的机器学习问题,但从未遇到过目标仍然是其他函数中的参数的情况。

我有一个类似的功能:

t = ax + by + cz + 偏差。

还有一个包含 t、x、y、z、m、n、o、p 等的数据库。我希望最优的 a、b、c 等是 x、y、z、m、n、o、p 的函数. 但是由于我不知道 a、b、c 等,并且只知道标签/目标 t,而 SKlearn 的大多数机器学习方法都不能开箱即用。

我想首先运行一个线性回归来找到 a、b、c 等,这会丢失区分不同数据点的所有信息。我想一个自编码的 SGD 可以解决我的问题,但不知道是从哪里开始的。我还考虑过完全删除我的最终函数,但我想保留存储在函数中的一些信息。

例如,我确实知道,a 依赖于与 b 不同的参数,并且可以为每个参数提供一个列表。我的想法是通过提供尽可能多的约束来减少可能的过度拟合,尤其是因为我的数据集不是那么大。

1个回答

将您的问题映射到传统的线性回归可能会有所帮助:

y=β0+B1x1+B2+x2+ε

在你的情况下:

  • t将是数据集中的数字目标值。
  • a,b,c是要估计的系数/权重。
  • x,y,z是数据集中的特征值。
  • bias是要估计的截距项B0

一旦数据集被正确格式化,scikit-learn 的线性回归就可以用来估计系数。

您是正确的,估计模型“丢失了区分不同数据点的所有信息”。模型是数据的有用简化。