特征工程在统计推断中的作用是什么?

机器算法验证 推理 特征工程
2022-04-06 16:05:36

这可能是一个愚蠢的问题。我是一名刚毕业的大学毕业生,从事预测建模领域的工作,我发现非常重视执行特征工程。然而,在我的大多数统计学学术培训中,几乎没有提到特征工程之类的东西(除了反对离散化/分箱预测器的论点)以建立推理模型。我想知道为什么特征工程在进行预测建模而不是开发用于统计推断的模型时发挥更大的作用。那么……特征工程在统计推断中的作用是什么?(与特征工程在预测建模中的作用相反)

根据最近的评论:

  • 通过统计推断,我的意思是任何主要目标是评估预测变量和响应变量之间关系的分析。

  • 通过预测建模,我的意思是任何主要目标是估计 Y 或预测未来值的分析。(包括所有机器学习技术)

4个回答

我将尝试说明一般特征工程背后的原因,比如我想分析图像。

当我们设计特征时,我们必须记住它们是原始数据/图像的表示。现在,如果我知道哪种信息对我必须完成的任务很重要,我需要特征来反映这一点。

例如,如果我想知道图像的内容并且我选择图像中的像素数作为特征,显然它不会起作用。现在,如果我选择使用块中像素的平均强度,我将能够区分蓝色图像和白色图像。但也许我想知道图像中是否存在对象,而此功能将无用。因此,我可能会考虑像素之间的强度梯度并查看它们的变化(但是,我将无法说我的图像是蓝色还是白色!)。

没有理想的特性,只有为特定任务设计的特性,而这个任务只有设计整个框架的人知道:你!这就是特征工程很重要的原因。但是,关于功能设计主题的研究非常庞大,对于您正在处理的大多数任务,已经有人设计了经证明效果很好的功能,您可以按原样使用它们(或在需要时稍微改变它们)。

最有效的特征是基于各种数学领域的理论,它们的应用范围有点窄。相反,分类器通常具有广泛的应用范围,这就是为什么我认为在学术界学习时经常强调它们。

正如这篇 Wiki 文章所阐明的(https://en.wikipedia.org/wiki/Feature_engineering),特征工程是机器学习中的关键步骤,涉及生成和培养一组可以通过经验证明的特征或属性(不是理论上必须)在目标的预测或分类中有用。Andrew Ng(和其他人)在开发一组特征时充分利用了专家的领域知识,但考虑到可应用于数据以改善模型拟合的大量转换、通常分析的大量特征以及“由于所采用的许多算法具有“黑盒”性质,因此领域知识似乎几乎不是优先事项。

对我来说,指出推理与预测和分类可以被视为独立的领域总是有用的,前者属于统计学,后者是机器学习的重点。显然,这个术语和这些领域有很多重叠之处,即它们绝不是相互排斥的。从广义上讲,统计推断涉及专家、领域知识、对假设的仔细说明、一组有限(小)属性或特征,以及用于检验假设的实验设计——旨在推动洞察力和相对于基本事实的理解。另一方面,ML 预测和分类可能是也可能不是假设驱动的,可能有也可能没有作为目标的描述性洞察力,可能有也可能没有作为基准的基本事实。

预测变量、虚拟变量或特征在预测建模中很重要,因为它们有助于捕获数据集中的真实模式,因此可以做出更好的预测,因为具有某种行为的模型可能会继续具有某种行为。特征工程有助于捕捉这种行为。

现在,对于基于您的定义的统计推断,您已经可以使用散点图、相关图、相关图、季节性图、滞后图等探索性分析在一定程度上评估预测变量和响应变量之间的关系。此外,通过从特征中删除/添加预测变量并评估预测来加强您的评估。

因此,我想说的特征工程是预测建模中的关键步骤,是绘制统计推断的次要步骤(因为还有其他方法可以评估可用变量之间的关系,查看历史数据)

从广义上讲,特征工程至少做了两件事。

首先,您可能会清理、重组或转换您的特征,从而增强有用信息并最大限度地减少冗余或噪声信息。也许您知道一类人/产品/小部件是完全不相关的并删除它们。

其次,您可以根据特定领域的领域知识创建新功能。在这种情况下,您实际上添加了以前不存在的新信息。在我自己的工作中,正是这些工程特性提供了最实用的功能。

这可能很难教,但不幸的是您的程序忽略了这一非常重要的步骤。