如何使用 NLP 构建阅读故事的 AI

人工智能 机器学习 深度学习 自然语言处理
2021-10-25 20:19:27

我想做一个 NLP 项目,但我不知道它是否可行,因为我还没有 NLP 或 ML 方面的经验或知识。

这个想法如下:假设我们有一个有 10 个字符的故事(在文本中)。我们能否定义它们、它们的特征、它们所说的整个句子,然后分析这些句子中的情绪。

之后,是否有可能生成故事的音频版本,其中:文本通常由一种声音叙述,每个角色的句子以专门为该角色生成的不同声音阅读。最后,是否有可能使角色的声音根据句子中检测到的情绪而改变?

1个回答

这是一个雄心勃勃的项目,恕我直言,目前远远超出了单个人(在合理的时间跨度内)所能做的范围。

您需要首先分析故事文本以识别角色。这已经是一项相当棘手的任务,因为代词和其他参考表达通常用于使文本不那么单调。如果一个角色是用名字来指代的,比如Jane,那么你可以假设后续的年轻女性会指代她,而不是同一段落中提到的男性角色。但是这位年轻的科学家呢?这样的表达式可能非常不透明,您需要大量的世界知识才能正确解码它们,因为它们可以引用角色的任何独特属性。

识别语音要容易一些,除非你在谈论间接语音。简正在大声思考。她不可能做到这一点。这太难了。——那是不是演讲?相比简然在心里想着:“我做不到,太难了。” ,这是直接语音等价物。此外,除非您正在处理戏剧,否则大部分文本可能不是语音。对于音频版本,您可能只想处理直接语音,通常(但不总是)用引号表示。

如果你到了这个阶段,分析情绪似乎比较容易,但如果只是基于演讲中的关键词,可能不会很准确。如果您可以为字符分配任何描述性陈述,那可能会更成功,尽管这绝不是微不足道的。

将文本生成为音频应该是直截了当的。现在的大多数操作系统都集成了语音合成,您通常可以选择不同的声音,因此如果您的文本正确标记了哪个声音应该说哪个部分,那将是微不足道的。

总结一下:NLP 部分是其中最难的部分。正如评论中已经提到的,我不认为这是机器学习可以帮助解决的问题,我会坚持将文本解析为结构表示然后应用规则来识别您感兴趣的位的传统方法情绪的识别可能是适合 ML 的子任务,但过去我只将模式匹配应用于类似的任务,所以我不能说太多。

根据我自己在文本分析方面的经验,我认为您可以通过一些简单的启发式方法获得不错的结果,但是当它变得更复杂时,这些方法可能会失败。很大程度上取决于故事的类型:在这方面,儿童童话可能比战争与和平更容易。