任何人都可以提出一种机器学习算法来识别文档所属的组织吗?我正在与相对大量的组织合作(大约 1000 个)。自然,输入数据是非结构化的,但大多数文档看起来几乎相同,但并不完全相同。此外,有些组织再次以“几乎但不完全”的方式遵循不止一个模板。
文档为 PDF 格式,是某种类型的报告,可以包含多个矩形区域的文本和表格。其中大多数不超过五页。
新的组织最终会出现——如何干扰算法?
任何人都可以提出一种机器学习算法来识别文档所属的组织吗?我正在与相对大量的组织合作(大约 1000 个)。自然,输入数据是非结构化的,但大多数文档看起来几乎相同,但并不完全相同。此外,有些组织再次以“几乎但不完全”的方式遵循不止一个模板。
文档为 PDF 格式,是某种类型的报告,可以包含多个矩形区域的文本和表格。其中大多数不超过五页。
新的组织最终会出现——如何干扰算法?
除了文档的内容,表格还可以包含更有价值的信息。我无法评论 pdf 文件的格式,但应该可以利用 pdf 元数据。作者、标题、主题或关键字可以提供一些线索,指向同一组织的共同起源。
尝试使用 TF-IDF 加权的决策树、支持向量机或朴素贝叶斯方法来创建文档向量并检查 Precision/Recall/F Measure 分数。但这不会涉及未知/新组织,它们将被归类到任何其他组织。当有这么多未知/新组织并且 Precision/Recall/F Measure 分数太低时,一种方法是重新建模/训练。
我和我的团队最近遇到了类似的问题。我们使用随机森林能够以大约 82% 的准确率在 10 个作者之间进行预测,随着用户数量的增加,准确率下降。然后,我们被要求尝试确定一个新作者,我们通过为森林中单个树木的投票创建一个动态阈值来实现该作者。有了新的用户标识和 10 个作者,我们的准确率约为 65%。我们也在使用 twitter 数据,所以我们的文档集相当小。我看过其他团队在文档中简单地使用了文档中停用词的计数和准确率为 80% 的随机森林的文档,但是他们并没有尝试识别新用户。
在您的情况下,将您的问题分成两个不同的问题可能会产生更好的结果。首先确定新文档是否属于您的任何已知用户,如果是,则尝试确定哪个用户。
文档作者署名在剽窃检测和诉讼起诉等许多领域都是一种有价值的技术。
我们很少有关于源代码作者归属的研究论文。在这些论文中,我们讨论了简单的模型,例如朴素贝叶斯分类器和一些先进的技术,例如深度学习。尽管我们的论文专门针对源代码作者归属,但您可以将我们在论文中讨论的算法应用于一般文档分类问题。
祝你好运!
文件
[1]。http://www.ijmlc.org/papers/50-A243.pdf
[2]。http://www.sciencedirect.com/science/article/pii/S0167865512003571
[3]。http://link.springer.com/chapter/10.1007/978-3-642-42042-9_46