我有这个问题场景 - 给定一组标记,使用停用词将它们或标记的子集串在一起成一个序列。我很清楚,对于这个问题,我可能拥有无限的预训练数据。例如,给定一组标记 {cat, jump, mouse} - 可能的输出可能是:猫跳到老鼠身上,b。猫和老鼠跳了起来,c。猫跳等等……
我不确定这是否是一个经过充分研究的问题场景,或者我应该探索哪些方向/模型架构。TIA。
我有这个问题场景 - 给定一组标记,使用停用词将它们或标记的子集串在一起成一个序列。我很清楚,对于这个问题,我可能拥有无限的预训练数据。例如,给定一组标记 {cat, jump, mouse} - 可能的输出可能是:猫跳到老鼠身上,b。猫和老鼠跳了起来,c。猫跳等等……
我不确定这是否是一个经过充分研究的问题场景,或者我应该探索哪些方向/模型架构。TIA。
伟大的NodeBox 语言学项目及其追随者模式现在似乎不受支持,但如果你能让它们运行 - 你可以尝试以下基于RDF-Triple of: subject predicate object。
它不会涵盖所有排列,也不会 100% 语法正确 - 但这是一个好的开始。
from pattern import en
for subject in subjects:
for object in objects:
for v in verbs:
predicate = en.verb.past(v)
print(f'The {subject} {predicate} the {object}')
可以从任何 nlp 名词列表中导入主语和宾语列表。动词列表也是如此。
您可以继续添加现在时和将来时,每个时态都有一个适当的“句子模板”。