中文文本使用包含数万个字符的字符集。汉语中的单词最常见的是由 1、2 或 3 个字符组成。中文文本中的单词之间没有空格或其他标记,因为母语人士可以轻松地从文本中分割单词。为了辅助语言学习工具,有一种自动分割文本块内单词的方法会很有帮助。
一些方法使用基于字典的贪心算法方法,但由于大多数贪心算法存在的常见问题而容易失败。
我想尝试使用神经网络,但我的问题是,如何将字符编码到网络的输入神经元?
我不是在谈论 OCR。这些字符是已知的并以 unicode 编码,但我如何将字符呈现给网络的输入?
我可以想象的一种方法是让网络一次查看 100 个字符的部分文本,并为每个字符设置一个神经元。但是我如何将角色表示为网络的数字?对字符使用 unicode 整数值似乎不是一个好主意。