为什么数据科学尚未广泛应用于法律?

数据挖掘 nlp
2022-02-12 16:33:24

法律(司法)包含如此庞大的语料库可以应用 NLP,但只有为法律设计的搜索引擎。为什么 NLP 还没有广泛应用?是因为维度吗?

3个回答

欢迎来到该网站,感谢您提出的好问题!我最近领导了一个涉及很多法律的 NLP 项目。虽然我不得不混淆我的实际工作,但这里有一个总体观点:

  1. 法律本身可能不是最好的源数据。为了使大多数法律可用于建模,这将需要一个大规模转换的记录集。我说的是大房间,到处都是律师,他们提供法律的注释版本,以创建一个真正有用的记录集
  2. 以上假设法律已以某种易于理解的格式数字化。情况可能并非总是如此。在很多情况下,您将经典的 OCR 方法作为数据准备的一部分,我不知道有谁喜欢使用 OCR :-)
  3. 人在环的要求非常高。所以你有一个算法,现在呢?这不是你可以放在 Mechanical Turk 上供外行验证的东西。您需要更多的律师来帮助验证您的方法并纠正正在发生的错误
  4. 最后,您必须在创建和应用嵌入层方面变得非常复杂。这不是一件容易的事情,而且处理器密集度很高——强烈推荐使用 GPU,而且没有很多草根工作会拥有这种处理能力

祝你好运!

一位朋友(法律和计算机科学专业的毕业生)最近撰写了关于在法律中使用 AI 和 ML 方法的博士论文。

他的结论正如你所建议的(维度),语义,正义的文化概念,以及非二进制数据类型(例如承认但有什么约束和条件?)不会导致令人满意的数学结果,当涉及到实际时句子的范围。

但是,NLP 可以帮助对案例进行预处理,以便更好地将它们分发给负责人。在分类情况下(例如交通延误),可以使用 NLP 方法来提高整个过程的效率。

NLP 在法律的某些方面得到了非常广泛的应用。我处理了一些与合同管理相关的用例。虽然我不能谈论细节,但 NLP 应用的一般领域是:

  1. 合同段落/部分的距离分析(v/s 历史判断语料库)
  2. 手动审查和验证的自动化
  3. 与发现相关的业务流程自动化
  4. NER(特定于法律领域)

关于这个主题的一些文章: