时间序列分类,没有时间维度

数据挖掘 分类 时间序列
2022-03-11 15:30:03

编辑

感谢@pcko1 的回答,我知道我应该使用数据增强来使我的模型对数据点的顺序具有弹性。

@Icrmorin 回答后的澄清:我的问题实际上比寻找子弹更复杂。我还需要找到标题、适当地排序文本(想想 2 列 PDF)、查找页眉/页脚等……
我目前正在尝试一种基于规则的方法,到目前为止效果很好。但是随着我需要处理的 PDF 格式数量的增加,代码的复杂性也随之增加,并且我已经到了 PDF 格式具有相反的功能并且不能由相同的代码处理的地步。
我希望机器学习方法可以解决这个问题并且适用于任何格式。

根据@mariq vlahova 的回答,这种任务似乎没有名字?只使用 LSTM 吗?

编辑结束


我正在寻找任务的名称,以便搜索有关该主题的更多文献。

标题本身给出了我能描述的最好的任务......

基本上我的数据点都有几个特征,我需要对这些数据点中的每一个进行分类,但不是独立的。但是,顺序不(或不应该)重要。


例子

例如我有 3 个数据点[D1, D2, D3],我想分类为[True, False, False]

这些数据点是相关的,即更改 1 个数据点也可能会改变其他数据点的结果:
[D1, D2', D3]可能被归类为[True, True, True].

此外,顺序无关紧要(这就是我写“没有时间维度”的原因): 如果
归类[D1, D2, D3][True, False, False]则应归类为
[D2, D3, D1][False, False, True]


语境

更多上下文...基本上我想将 PDF 内容分类为要点与否。

所以我想解析我的 PDF 文件,提取文本块以及附加信息(字体大小、位置等...),并将这些块分类为bulletnot bullet.

但是我们不能独立地对每个块进行分类。考虑以下示例:

...End of previous paragraph

1. This is a title

Beginning of next paragraph...

在这种情况下,1. This is a title不应归类为bullet但 :

1. This is a title

2. This is a second title

3. This is a third title

在这种情况下,1. This is a title应归类为bullet

我需要找到关于这个问题的文献,但我什至不知道任务的名称......

3个回答

老实说,您似乎与需要监督视觉方法相去甚远。我建议您首先尝试一种简单的非 ML 方法:使用标准库提取文本,然后将可算作“子弹”的内容标记为“子弹”,然后检查是否连续出现多个。这可能会起作用,如果不起作用,它将帮助您理解原因。

采用整个 OCR 方式将意味着大量的 pdf 注释,如果不尝试简单的基准测试,这种增益就不是很清楚。

ps:如果要处理文本,相关字段是自然语言处理而不是时间序列。

您正在寻找的是使用数据增强训练分类器。

在图像分类的上下文中,这可能是指通过倾斜或旋转图像来改变对象的姿势

在文本分类的上下文中,这可以想象为用交替的词序列对同一句子的不同版本进行分类(有些语言比其他语言更允许这样做,例如希腊语允许这样做,而德语更严格)。

更有趣的是,这在从头药物设计的背景下发现了开创性的影响,其中分子由字母数字文字(字符串)描述,然后可以通过以化学上有意义的方式改变其构成字符的序列来增强这些文字。这称为随机化,但本质上它是原始字符串的重新混合,因此是数据增强。

最后,在您决定数据增强策略后,将其应用于您的训练数据集。数据点的所有增强版本都保持相同的原始标签。然后,您就可以在增强和标记化的文本数据上训练任何分类器,例如随机森林或支持向量机。

如果我理解正确,您尝试实现的是使用上下文信息进行文本分类。另外我假设您有目标列,因此您需要使用监督学习(如果我的假设错误,请纠正我:))对于这种情况最好是使用像 LSTM 这样的循环神经网络。请检查这个https://www.kaggle.com/kredy10/simple-lstm-for-text-classification,因为我认为它与你的情况非常相似。