编辑
感谢@pcko1 的回答,我知道我应该使用数据增强来使我的模型对数据点的顺序具有弹性。
@Icrmorin 回答后的澄清:我的问题实际上比寻找子弹更复杂。我还需要找到标题、适当地排序文本(想想 2 列 PDF)、查找页眉/页脚等……
我目前正在尝试一种基于规则的方法,到目前为止效果很好。但是随着我需要处理的 PDF 格式数量的增加,代码的复杂性也随之增加,并且我已经到了 PDF 格式具有相反的功能并且不能由相同的代码处理的地步。
我希望机器学习方法可以解决这个问题并且适用于任何格式。
根据@mariq vlahova 的回答,这种任务似乎没有名字?只使用 LSTM 吗?
编辑结束
我正在寻找任务的名称,以便搜索有关该主题的更多文献。
标题本身给出了我能描述的最好的任务......
基本上我的数据点都有几个特征,我需要对这些数据点中的每一个进行分类,但不是独立的。但是,顺序不(或不应该)重要。
例子
例如我有 3 个数据点[D1, D2, D3],我想分类为[True, False, False]。
这些数据点是相关的,即更改 1 个数据点也可能会改变其他数据点的结果:
[D1, D2', D3]可能被归类为[True, True, True].
此外,顺序无关紧要(这就是我写“没有时间维度”的原因):
如果
归类[D1, D2, D3]为[True, False, False],则应归类为。[D2, D3, D1][False, False, True]
语境
更多上下文...基本上我想将 PDF 内容分类为要点与否。
所以我想解析我的 PDF 文件,提取文本块以及附加信息(字体大小、位置等...),并将这些块分类为bullet或not bullet.
但是我们不能独立地对每个块进行分类。考虑以下示例:
...End of previous paragraph
1. This is a title
Beginning of next paragraph...
在这种情况下,1. This is a title不应归类为bullet。但 :
1. This is a title
2. This is a second title
3. This is a third title
在这种情况下,1. This is a title应归类为bullet。
我需要找到关于这个问题的文献,但我什至不知道任务的名称......