这是一个与神经网络检测“垃圾邮件”相关的问题吗?. 我想知道如何处理文本中传达的情感。在非正式的写作中,尤其是在青少年观众中,通常会发现情感表现为重复人物。例如,“Hi”与“Hiiiiiiiiiiiiiii”的含义不同,但“hiiiiii”、“hiiiiiiiii”和“hiiiiiiiiii”具有相同的含义。
一个天真的解决方案是预处理输入并在某个阈值(例如 4)之后删除重复字符。这可能会将最长的“hiiiii”减少到 4 个“hiiii”,给出单独的含义(上下文中的权重?) “嗨”与“长嗨”。
当有组合时,就会出现这种解决方案的幼稚。例如,haha vs hahahahaha 或 lol vs lolololol。同样,我们可以编写一个正则表达式来将 lolol[ol]+ 简化为 lolol。但后来我们遇到了 hahahaahhaaha 的问题,一个错字破坏了顺序。
还有整个 Emoji 问题。表情符号起初可能看起来令人生畏,因为它们是特殊字符。但是一旦理解,表情符号实际上可能会在这种情况下变得有用。例如,😂 可能与 😂😂😂😂😂 的含义完全不同,但 😂😂😂😂😂 可能与 😂😂😂😂 和 😂😂😂😂😂😂 的含义相同。
对我来说,表情符号的诀窍在于它们实际上可能更容易解析。只需在 😂 之间添加空格即可在文本分析中将 😂😂😂😂 转换为 😂😂😂😂。我猜重复会在训练中发挥作用,但与“hi”和“hiiii”不同,Word2Vec 不会尝试将 😂 和 😂😂 分类为不同的词(因为我现在被迫成为单独的词,依靠频率以检测短语的情绪)。
更重要的是,这将有助于检测“好玩”的语言,例如😠😂😂😂,其中 😠 表情符号可能暗示有愤怒,但除了明白这个人并不是真的生气。
这有什么意义吗?或者我走错了方向?