回归机器学习如何?

人工智能 机器学习 线性回归 监督学习 回归
2021-10-20 02:53:11

在回归中,为了最小化误差函数,假设的函数形式h必须决定,并且必须假设(就我而言)f,实例空间到目标空间的真实映射,必须具有与h(如果h是线性的,f应该是线性的。如果h是正弦的,f应该是正弦的。否则选择h很穷)。

但是,这是否不需要我们首先要让计算机自行完成的数据集的先验知识?我认为机器学习是让机器完成工作,并让人类的投入最少。我们不是告诉机器一般是什么形式吗?f将采取并让机器使用诸如错误最小化之类的东西来完成其余的工作吗?在我看来,这似乎放弃了机器学习的全部意义。我认为我们应该在提供训练集后通过分析数据让机器为我们工作。但似乎我们为此做了很多工作,也查看数据并说“这将是线性的。找到系数m,b符合数据的。”

4个回答

所以从某种意义上说你是对的。使用你的行话:线性回归只有在真正的函数是近似的情况下才会“起作用”y=h(x)=βTx+β0. 使用它的优点是它的重量轻,它的凸面和全方位的简单。

但是对于很多更大的问题,这将不起作用。正如您所说,您希望机器完成工作,所以这(有点)是更深层次的模型发挥作用的地方:您允许可学习的特征化和分类/回归。这样想,你的回归结果很可能与一些特征线性相关,它们可能不是你感兴趣的(你可以用任何无限宽的网络证明这一点:: Universal approx Thm) . 不幸的是,我们不能使用无限维模型,所以我们使用这些巨大的过度参数化模型来运行,我们希望一个好的函数可以用一个子结构来描述(直到最近我们才开始关注这些子结构如何表格——看这篇论文

但是你思考它的方式对于许多试图前进的人来说是一个大坑。现在很多 ML 人通过在大数据问题上抛出一个没有很多参数的函数来获得成功,但是你会看到该领域最大的进步来自对特征化和优化的理论理解。

我希望这有帮助

实际上回归属于统计分析。如您所知,许多业务活动(决策)依赖于可以从组织交易数据中获取的先前趋势。当对这些组织数据执行回归时。人们可以理解可以做出什么决定。甚至可以在生成回归线时模拟不同的条件,预测未知情况,决策者可以传递与组织运作中的某些现象相对应的数值。

机器学习如何回归?

让我们从机器学习的定义开始。

机器学习是人工智能 (AI) 的一种应用,它使系统能够自动学习和改进经验,而无需明确编程。机器学习专注于开发可以访问数据并使用它自己学习的计算机程序。

来源:https ://www.expertsystem.com/machine-learning-definition/

从定义中可以清楚地看出,机器学习是在没有明确编程的情况下了解数据的内在洞察力。了解我之前在业务相关交易数据方面的趋势试图传达给我的信息不是很好吗?

请注意,在回归等机器学习算法中,人们试图在跨国数据之间建立某种关系。

那么数据之间的关系是如何建立的呢?
假设您从事房屋买卖业务,并且您想根据最新趋势预测房价。所以你得到的是房价数据和房子的特征。

特征:house_area,no_of_rooms
目标(你想要预测的):价格

现在,您对这些数据执行回归,并且您想找出具有最新趋势数据中未提及的特征的房屋的最佳价格。假设一般回归变为:

价格 = a * hourse_area + b * no_of_rooms + some_constant

所以在某种意义上。我们只是试图找到带有一些变量(如 a、b 和 some_constant)的最新趋势数据的最佳拟合线。从这些趋势数据中找到如此高级别的细节来了解所谓的“训练数据”中未提及的数据的房价是不是很好。

选择最佳映射的目标函数?
假设关系有时是非线性的。但是我的算法怎么会知道这一点。在这种情况下,可以使用人工神经网络,因为它也可以学习假设非线性训练数据。

注意:您可以在以下位置学习模拟非线性数据:https ://playground.tensorflow.org

它只是一种用于机器学习的统计技术,它取决于机器学习问题的性质。我认为你应该参考统计和机器学习的关系。这些是不一样的,但是你可以看到机器学习方法中的统计方法。

对于您的具体问题,人工智能中有很多优化技术(不是专门在机器学习中)。所以,我认为你应该更仔细地研究这个问题,以在这个回归示例中找到机器学习、人工智能和统计数据之间的关系。

您要问的内容涉及两种截然不同的机器学习方法:

  1. 实证方法(很多人称之为“机器学习”,也有人喜欢称其为“算法机器学习”)
  2. 统计方法(有些人喜欢称之为“统计机器学习”)

纯粹的经验方法是非常面向目标的——想想仅用于预测的判别模型。根据您选择的任何指标,您真的只关心数据是否适合训练 + 测试数据。

统计方法是非常面向过程的——你会想要识别生成数据的过程、它们遵循的分布、你的结果是否具有统计意义等。

在这个范围内,大多数人都处于中间位置。

您所描述的更接近统计机器学习 - 对于另一种方法的从业者来说,回归仅意味着您正在尝试预测连续目标变量(而分类将针对离散目标变量)。然后你可能会稍微研究一下数据,摆弄特征和超参数,并尝试许多不同的回归算法,从 OLS、SVM、最近邻回归器、随机森林、梯度提升树,甚至可能是 RNN 等. 在极端情况下,这种方法的纯粹主义者根本不会关心统计数据或任何潜在的分布,而只关心最终回归是否在实践中给出了良好的结果。

虽然这种方法存在明显的风险(尤其是当模型的基本假设崩溃时),但它可以产生良好的结果,尤其是当从业者是一名优秀的编码人员并且可以非常快速地尝试很多可能性,甚至产生新的算法时. 事实上,数学有时确实落后于其他领域的发展——例如傅里叶分析和深度神经网络。

另一个非常近似的类比是科学与工程。