我有许多不同的文本字符串。这些文本字符串是特定事物的标签。但是这些标签很草率,有时一个标签用于许多不同的事情。例如:
《棕狐 1999 版系列 1-6 EDI》
“Light [old] seasons 1,2,3,4 其他胡言乱语”
我想回答这个问题:“如果标签包含一个系列,那么该系列是否包含值 N?” 对于上面的示例,第一个中将包含 6 个,但第二个中不包含。
最初我想使用正则表达式,但很快就失控了。数字无处不在,人们可以通过分隔符变得非常有创意,并且标签中系列的位置不固定。标签表示系列的方式有很多种。
但是,我可以做的是生成带有系列的标签。我将抓住一堆分隔符,一个开始和一个结束数字并迭代。这给了我一个很好的标记训练集。
朴素贝叶斯想到了这个问题,但我不确定有什么好的功能。
更新
让我试着澄清一下。给定一个标签并给定一个数字,确定该数字是否包含在该标签内。
例如:鉴于我正在寻找第 2 季(数字)。《先驱者一号 2011 第 1-3 季》包含第 2 季吗?