python - 这种数据挖掘方法会起作用吗?这是个好主意吗?

数据挖掘 Python 数据
2021-09-21 20:50:59

我需要从一堆 .csv 文件中提取文档编号、日期和发票金额等字段,我认为这些文件被称为“非结构化文本”。我有一些带标签的输入文件,将使用 NLTK 和 Python 来设计数据提取算法。

对于第一轮分类,我计划使用带有分类器的 tf-idf 加权来识别文档类型——有多个文件使用相同的格式。

此时,我需要从文档中提取字段的方法,因为它是 X 类型的文档。例如,我考虑过使用“最常见的数字”或“带逗号的最大数字”等功能来查找发票金额,但由于发票金额可以是任何数值,我相信样本量会小于可能的特点?(我这里没有培训,请耐心等待。)

有没有更好的方法来做第二部分?我认为第一部分应该没问题,但我不确定第二部分是否有效,或者我是否真的理解这个问题。我的方法一般如何?我对这种事情很陌生,这是我能想到的最好的。

1个回答

我不确定使用分类器是否是解决此问题的最佳方法。如果它是可以使用正则表达式轻松提取的东西,那么这是最好的方法。但是,如果您想使用分类器,那么您需要问自己两个问题。

一,未标记的数据是什么样的,你能从中设计出好的特征吗?根据您设计的特征向量的类型,分类任务的复杂性可能从非常容易到不可能。(感知器通常无法解决 XOR,除非您为其提供输入变量的特定线性组合)。

二、标注的数据是什么样的?它是代表整个数据集还是只包含非常特定类型的格式?如果是前者,那么您的分类器将无法很好地处理未在标记数据中表示的文件。

如果你只是想先测试运行一个分类器,你可以通过使用正则化来解决特征多于训练样本的问题。正则化迫使分类器的训练算法接受最简单的可能解决方案(想想 occam 的剃刀)。

Python 中几乎所有与机器学习相关的包都将具有您可以使用的正则化选项,所以请尽情享受吧。