这是哪个机器学习问题?

数据挖掘 机器学习 神经网络 分类 nlp
2021-09-23 12:38:18

我无法弄清楚这是哪种机器学习:

训练集:由带有对象短语对象标签的句子组成示例:

"This is a black chair. It is next to a large bed."

短语'This', 'black chair', 'it'用 label 注释"chair",短语'large bed'用 label 注释'bed'可以分配 18 个可用标签。

对于未注释的句子,我想预测句子中每个短语的标签。

例如:

There is a study table in the corner of the room, behind it is a small chair.

我希望模型为表示上述句子中的对象的每个短语预测一个标签(可用 18 个标签)。

预期输出:

'study table', 'it' -----> label 'table'

'small chair' -----------> label 'chair'

这是分类、回归还是其他类型的问题?

3个回答

从技术上讲,这是序列标记,最常见的应用是命名实体识别

但是,在这种情况下,您似乎正在尝试解决coreference resolution的问题,这通常是一项非常困难的任务。我认为这通常涉及比简单序列标记更复杂的模型,但我不是这方面的专家。您可能想围绕这个主题进行搜索,当然有一些相关的论文工具

有几种不同的方法可以解决问题。

一种方法是多类分类目标是为每个短语分配一个离散标签。为了获得短语,您必须首先构建一个解析树。您没有列出所有标签,但我们假设它们都是名词。然后你需要一个词性标注器(词性标注器)来查找所有名词短语。可以预测每个名词短语属于一个类。

@Erwan 可能给了你一个更好的主意,但是对于一个更简单的问题,当每个标记都有一个单独的类时,这可以被视为语音标记的一部分,这本质上是一个每个标记的多类问题。这假设每个标记只能映射到一个正确的类。在这种情况下,LSTM 的输出将是大小,例如(1, seq_length, hidden_dim),您将其整形为(seq_length, hidden_dim),并seq_length成为批量维度。您将此输出输入线性层,以获得一批输出 size seq_length现在您可以为此批次使用 NegativeLogLikelihood 损失函数。对于每个标记,您将有一个标签的单热向量(多类问题)。