我最近遇到了这个featuretools包,它有助于自动化特征工程。下面是对包的解释:
https://towardsdatascience.com/automated-feature-engineering-in-python-99baf11cc219
自动化特征工程旨在通过从数据集中自动创建许多候选特征来帮助数据科学家,从中可以选择最佳特征并将其用于训练。
我在 ML/AI 技术方面的经验有限,但在探索现有的 ML 技术之前,我一直在考虑通用 AI。一个不断涌现的想法是,不仅要分析原始数据的模式,还要分析数据的衍生物,这与featuretools可以做的事情没有什么不同。这是一个例子:
不难看出上图是两个正方形,一个是完全绿色的,一个是蓝/绿水平渐变。尽管渐变方块不是任何一种颜色并且它的边缘与绿色方块的颜色相同(即没有硬边界),但这是正确的。
但是,假设我们计算每个像素与其紧邻的像素之间的差异。暂时忽略 RGB 是 3 个单独的值,让我们将梯度正方形中每个像素列之间的差异称为X。然后将原始图形转换为此,本质上是两个同质的值块。我们可以更进一步来确定两个正方形之间的硬边界(再次应用类似的从左到右的变换)。
执行转换后,应该有某种方法来评估转换输出的重要性。这是一个简单而干净的示例,其中有两个同质值块(即,输出显然不是随机的)。如果我们的大脑确实使用了任何一种类似的转换过程,那么我们执行的转换的数量可能实际上是无数的,即使是在短暂的感知实例中也是如此。
最终,这种转换过程可以促进发现数据中存在的顺序。在这个框架内,也许“智能”可以简单地定义为检测顺序的能力,这可能需要连续应用许多转换、多种类型的转换、以高概率应用转换的能力找到重要的东西,评估重要性的能力等。
只是好奇是否有人对此有想法,除了简单的自动化特征工程之外是否还有类似的想法等。

