我有来自维基百科的 1-4 克文本数据,用于 14 个类别,我将其用于 NE 分类。我将句子中的命名实体提供给 lucene 索引器,该索引器从这 14 个类别中搜索命名实体。我面临的问题是,对于单个实体,我得到多个类,结果是相同的分数。就像搜索时一样titanic,索引器会给出这个结果
分数 - 11.23 标题 - 泰坦尼克号 - 书籍
分数 - 11.23 标题 - 泰坦尼克号 类别 - 电影
分数 - 11.23 标题 - 泰坦尼克号 类别 - 产品
现在的问题是要考虑哪个类?
我已经尝试过使用分类器(NB,ME in nltk,scikit learn),但是由于它将数据集中的每个实体都视为特征,因此它仅用作索引器。
为什么是卢森?
