我想从给定文档中提取所有日期信息。本质上,我想这可以通过很多正则表达式来完成:
- 2019-02-20
- 20.02.2019(“德语格式”)
- 02/2019(“2019 年 2 月”)
- "明天" (datetime.timedelta(days=1))
- "昨天" (datetime.timedelta(days=-1))
是否有提供此功能的 Python 包/库,还是我必须自己编写所有这些正则表达式/逻辑?
我对从德语和英语文本中提取信息感兴趣。不过主要是德语。
约束
我现在还没有完整的数据集,但我对此有所了解:
- 可能在数据集中的 10 年有趣的日期
- 我想有趣的日期类型是:(1)28.02.2019,(2)相对日期,如“3天前”(3)28/02/2019,(4)02/28/2019(5)2019-02- 28 (6) 2019/02/28 (7) 2019/28/02 (8) 28.2.2019 (9) 28.2 (10) ... -- 所有这些都可以在不同的地方有空间
- 我有数以百万计的文件。我猜每个文件大约有 20 个句子。
- 大部分数据是德语