我正在做一个从文本中提取日期/时间实体的项目。我正在使用基于规则的系统来提取时间表达式并将它们定位到实际的日期/时间。
我希望解决的问题的第二部分是标记发现的每个实体的角色。例如,考虑以下文本:“下午 2 点离开,下午 4 点返回”。我正确地将下午 2 点和下午 4 点识别为日期/时间实体。但是,我不能说实体是“开始时间”、“结束时间”,还是两者都不是。
问题是我该怎么做?
我是 NLP 和 ML 的新手。这是我的一个想法,请告诉我我是否走对了方向:
该计划是使用以下特征训练逻辑回归(或朴素贝叶斯?)分类器:
- 日期/时间短语窗口内每个词的词嵌入平均值。
- 日期/时间短语窗口内每个单词的 POS 标签??(不确定如何将其传递给逻辑回归分类器,但只是一个想法)
- 时间表达中单词的词形??
我对从哪里开始有点困惑,并且非常感谢一些关于如何选择我的功能以及什么分类器合适的指示。
我也愿意接受有关学习资源的建议。网上有很多 NER 资源,但关于如何对找到的实体进行“角色分类”的资源并不多。