特征提取是一个关于将原始数据转换为特定机器学习算法所需的输入的概念。这些从原始数据中派生的特征实际上与解决潜在问题相关。另一方面,词嵌入基本上是文本在 n 维空间中的分布式表示。
据我了解,词嵌入是一种某种程度上的特征提取技术。我错了吗 ?我和一位认为这两个主题完全不同的朋友发生了争执。他是对的吗?词嵌入和特征提取有什么异同?
特征提取是一个关于将原始数据转换为特定机器学习算法所需的输入的概念。这些从原始数据中派生的特征实际上与解决潜在问题相关。另一方面,词嵌入基本上是文本在 n 维空间中的分布式表示。
据我了解,词嵌入是一种某种程度上的特征提取技术。我错了吗 ?我和一位认为这两个主题完全不同的朋友发生了争执。他是对的吗?词嵌入和特征提取有什么异同?
虽然词嵌入主要是一种语言建模工具,但它也可以作为一种特征提取方法,因为它有助于将原始数据(文本文档中的字符)转换为模型可以更有效地使用的嵌入空间中词向量的有意义对齐(在大型语料库上比其他传统方法,如 TF-IDF、Bag of Words 等)。词嵌入技术有助于从词的模式和出现中提取信息,并且比其他传统的标记表示方法更进一步解码/识别词的含义/上下文,从而为模型提供更多相关和重要的特征来解决潜在问题。
然而,从另一个角度来看,词嵌入模型并不是为了解决特定的特征提取问题而开发的,而是为了对语料库中使用的语言进行泛化和建模,以获得对单词及其之间关系的语义理解。这样,所有各种特定于语料库的任务都可以使用相同的信息“库”,这些信息是由嵌入模型集体和详尽地学习的。意思是,词嵌入模型学习的语言模型对于该语料库上的所有任务都与任务无关,这与专门面向任务的特征提取方法不同。
因此,相似性是——词嵌入可以有效地帮助特征提取;不同之处在于 - 它们主要不是为了提取特征而不是用于建模语言,这对于数据集上的特定特征提取任务可能是“过度杀伤”。
我认为你们正在玩语义。
如果您认为特征提取是获取模型输入的未学习预处理步骤,那么不,词嵌入不是特征提取技术(这里的示例是 BoW 计数、n-gram 特征等)
如果您认为特征提取是从文本到一组特征的任何形式的转换,那么是的,词嵌入应该被视为特征提取的一种形式,因为它们已经在此过程中学习(或从另一个模型的训练中窃取) . 请注意,如果您确实包含此内容,您可能会将大多数预训练模型作为一个整体包含为特征提取技术(如 BERT)。
因此,您的整个对话可以根据您设置的定义进行。