我正在尝试找到一个数据集,其中数据集以困难的单词为目标。我知道每个人会有不同程度的难度,但如果我们考虑一个普通人,我想检测句子中出现的难词。
示例:是的,也许今天的英国人对其中一些赔偿不负责任,但同样的发言者自豪地指出了他们的外援——你不对在索马里挨饿的人负责,但你给他们的援助肯定是赔偿的原则不能否认所做的错误是什么。
在上面的句子中,模型应该成功检测到这个词 - reparations。
我正在尝试找到一个数据集,其中数据集以困难的单词为目标。我知道每个人会有不同程度的难度,但如果我们考虑一个普通人,我想检测句子中出现的难词。
示例:是的,也许今天的英国人对其中一些赔偿不负责任,但同样的发言者自豪地指出了他们的外援——你不对在索马里挨饿的人负责,但你给他们的援助肯定是赔偿的原则不能否认所做的错误是什么。
在上面的句子中,模型应该成功检测到这个词 - reparations。
基于难词难,因为它们不常用,我认为像TF-IDF这样简单的东西会很好用。