将一组标记串在一起形成一个序列

数据挖掘 机器学习 序列到序列
2022-02-11 20:27:29

我有这个问题场景 - 给定一组标记,使用停用词将它们或标记的子集串在一起成一个序列。我很清楚,对于这个问题,我可能拥有无限的预训练数据。例如,给定一组标记 {cat, jump, mouse} - 可能的输出可能是:猫跳到老鼠身上,b。猫和老鼠跳了起来,c。猫跳等等……

我不确定这是否是一个经过充分研究的问题场景,或者我应该探索哪些方向/模型架构。TIA。

1个回答

伟大的NodeBox 语言学项目及其追随者模式现在似乎不受支持,但如果你能让它们运行 - 你可以尝试以下基于RDF-Triple of: subject predicate object

它不会涵盖所有排列,也不会 100% 语法正确 - 但这是一个好的开始。

from pattern import en

for subject in subjects:
  for object in objects:
    for v in verbs:
      predicate = en.verb.past(v)
      print(f'The {subject} {predicate} the {object}')

可以从任何 nlp 名词列表中导入主语和宾语列表。动词列表也是如此。

您可以继续添加现在时和将来时,每个时态都有一个适当的“句子模板”。