自动化特征工程是通向通用 AI 的途径吗?

人工智能 超级智能 特征选择 特征工程
2021-11-14 19:10:49

我最近遇到了这个featuretools包,它有助于自动化特征工程。下面是对包的解释:

https://towardsdatascience.com/automated-feature-engineering-in-python-99baf11cc219

自动化特征工程旨在通过从数据集中自动创建许多候选特征来帮助数据科学家,从中可以选择最佳特征并将其用于训练。

我在 ML/AI 技术方面的经验有限,但在探索现有的 ML 技术之前,我一直在考虑通用 AI。一个不断涌现的想法是,不仅要分析原始数据的模式,还要分析数据的衍生物,这与featuretools可以做的事情没有什么不同。这是一个例子:

在此处输入图像描述

不难看出上图是两个正方形,一个是完全绿色的,一个是蓝/绿水平渐变。尽管渐变方块不是任何一种颜色并且它的边缘与绿色方块的颜色相同(即没有硬边界),但这是正确的。

但是,假设我们计算每个像素与其紧邻的像素之间的差异。暂时忽略 RGB 是 3 个单独的值,让我们将梯度正方形中每个像素列之间的差异称为X然后将原始图形转换为此,本质上是两个同质的值块。我们可以更进一步来确定两个正方形之间的硬边界(再次应用类似的从左到右的变换)。

在此处输入图像描述

执行转换后,应该有某种方法来评估转换输出的重要性。这是一个简单而干净的示例,其中有两个同质值块(即,输出显然不是随机的)。如果我们的大脑确实使用了任何一种类似的转换过程,那么我们执行的转换的数量可能实际上是无数的,即使是在短暂的感知实例中也是如此。

最终,这种转换过程可以促进发现数据中存在的顺序。在这个框架内,也许“智能”可以简单地定义为检测顺序的能力,这可能需要连续应用许多转换、多种类型的转换、以高概率应用转换的能力找到重要的东西,评估重要性的能力等。

只是好奇是否有人对此有想法,除了简单的自动化特征工程之外是否还有类似的想法等。

1个回答

自动化特征工程,如果它是任何通用智能方法的一部分,就不能成为整个解决方案。寻找有意义的特征,而不是那些仅仅存在而没有实用性的特征,需要一些指导。

在机器学习中,特征工程通常是搜索可提高特定任务(例如分类或回归)性能的特征。“智能”部分在于搜索方式,以及首先设定目标。自动化特征工程通常使用相当粗略的搜索算法来寻找好的特征,例如随机组合,然后使用原始处理能力来覆盖大量选项。自动化特征工程也不会为任何任务设定目标,也不会从 ML 的输出中反馈主动行为来指导搜索。智能代理可能会主动在其环境中搜索数据以测试一个想法(例如,重复一个动作以发现是否发生相同的事情,或移动以更好地观察有趣的事件)。特征工程是一个单独的问题。

有一些通用智能理论将智能模式匹配作为关键组件。例如,Jürgen Schmidhuber长期以来一直是情报奖励系统的支持者,即压缩观察和预测。在这样的系统中,代理发现的更好的模式匹配是一种内在的奖励信号,因为它允许更好地压缩代理使用的世界模型。

Marcus Hutter是另一位著名的 AI 研究员,他提出了一个名为AIXI的框架,其中包含了类似的想法。使用 AIXI 操作的代理将受益于发现其观察中的特征,从而改进其对接下来会发生什么的预测。某种形式的自动化特征工程很可能是这种代理的核心。