数据挖掘 - python - 这种数据挖掘方法会起作用吗？这是个好主意吗？ - 吾爱随笔录 - 问答

python - 这种数据挖掘方法会起作用吗？这是个好主意吗？

数据挖掘 Python 数据

2021-09-21 20:50:59

我需要从一堆 .csv 文件中提取文档编号、日期和发票金额等字段，我认为这些文件被称为“非结构化文本”。我有一些带标签的输入文件，将使用 NLTK 和 Python 来设计数据提取算法。

对于第一轮分类，我计划使用带有分类器的 tf-idf 加权来识别文档类型——有多个文件使用相同的格式。

此时，我需要从文档中提取字段的方法，因为它是 X 类型的文档。例如，我考虑过使用“最常见的数字”或“带逗号的最大数字”等功能来查找发票金额，但由于发票金额可以是任何数值，我相信样本量会小于可能的特点？（我这里没有培训，请耐心等待。）

有没有更好的方法来做第二部分？我认为第一部分应该没问题，但我不确定第二部分是否有效，或者我是否真的理解这个问题。我的方法一般如何？我对这种事情很陌生，这是我能想到的最好的。

1个回答

我不确定使用分类器是否是解决此问题的最佳方法。如果它是可以使用正则表达式轻松提取的东西，那么这是最好的方法。但是，如果您想使用分类器，那么您需要问自己两个问题。

一，未标记的数据是什么样的，你能从中设计出好的特征吗？根据您设计的特征向量的类型，分类任务的复杂性可能从非常容易到不可能。（感知器通常无法解决 XOR，除非您为其提供输入变量的特定线性组合）。

二、标注的数据是什么样的？它是代表整个数据集还是只包含非常特定类型的格式？如果是前者，那么您的分类器将无法很好地处理未在标记数据中表示的文件。

如果你只是想先测试运行一个分类器，你可以通过使用正则化来解决特征多于训练样本的问题。正则化迫使分类器的训练算法接受最简单的可能解决方案（想想 occam 的剃刀）。

Python 中几乎所有与机器学习相关的包都将具有您可以使用的正则化选项，所以请尽情享受吧。

其它你可能感兴趣的问题

上一篇方形不可定向图像/数据的对齐下一篇在 SQL 中遍历树：JOIN 与命令式算法