我有一个非常混乱的组织名称数据集。我在上面使用了所有流行的 NER 工具,但没有取得多大成功(我认为这是因为它们缺乏上下文)。我决定使用 OpenRefine,但由于它的过滤器没有收集到很多类似的字符串,我走到了死胡同。我想将到目前为止我用 OpenRefine 清理的数据用于(最好是有监督的)机器学习算法,然后可以继续清理。
有什么资源可以帮助解决这个问题吗?
是否有工具/库/算法可以从我在清理文本中执行的步骤中学习并将它们应用于类似的数据?
数据挖掘
机器学习
数据挖掘
数据清理
监督学习
2022-02-17 20:56:42
2个回答
Trifacta ( https://www.trifacta.com/ ) 据说可以做到这一点(从用户提供的一些示例中学习。我对公司没有兴趣,但它来自我熟悉的学术研究(http: //vis.stanford.edu/wrangler/ )。谷歌有一些免费的在线产品 (Google Refine),它也可以非常简单地做一些直观的事情,但我不认为它开发得那么好。如果你尝试任何一个产品,请让我们知道您的经历!
我知道这是一个非常古老的问题,但是如果您可以提供 OpenRefine 没有正确聚类的值的示例,您认为应该这样做,我们很乐意考虑改进该工具。
话虽如此,我可能会从不同的角度解决您的问题,而不是使用文本相似性聚类,我会尝试与 Wikidata 或 OpenCorporates 等组织名称数据库进行协调。这样做的好处是它应该考虑到别名、以前的名字等从字符串相似性的角度来看并不相似,但人类已经策划过的东西。给出的两个示例都具有可用于此目的的 OpenRefine 协调服务。
其它你可能感兴趣的问题