我需要从一堆 .csv 文件中提取文档编号、日期和发票金额等字段,我认为这些文件被称为“非结构化文本”。我有一些带标签的输入文件,将使用 NLTK 和 Python 来设计数据提取算法。
对于第一轮分类,我计划使用带有分类器的 tf-idf 加权来识别文档类型——有多个文件使用相同的格式。
此时,我需要从文档中提取字段的方法,因为它是 X 类型的文档。例如,我考虑过使用“最常见的数字”或“带逗号的最大数字”等功能来查找发票金额,但由于发票金额可以是任何数值,我相信样本量会小于可能的特点?(我这里没有培训,请耐心等待。)
有没有更好的方法来做第二部分?我认为第一部分应该没问题,但我不确定第二部分是否有效,或者我是否真的理解这个问题。我的方法一般如何?我对这种事情很陌生,这是我能想到的最好的。