我知道这个问题很广泛,但我需要一个建议来了解是否有可能实现我想做的事情。
问题是我有大约 2500 个文档,其中敏感数据被四个点替换。我没有原始文档,所以我想知道是否有一种方法可以构建一个模型,可以使用以前的文档从任何新文档(不删除敏感数据)中检测敏感数据?我想应用机器学习或深度学习方法。而我所知道的是,带有注释敏感数据的原始数据集应该用于训练,这是我无法获得的。
我是这个领域的新手,所以任何建议都会非常合适
我知道这个问题很广泛,但我需要一个建议来了解是否有可能实现我想做的事情。
问题是我有大约 2500 个文档,其中敏感数据被四个点替换。我没有原始文档,所以我想知道是否有一种方法可以构建一个模型,可以使用以前的文档从任何新文档(不删除敏感数据)中检测敏感数据?我想应用机器学习或深度学习方法。而我所知道的是,带有注释敏感数据的原始数据集应该用于训练,这是我无法获得的。
我是这个领域的新手,所以任何建议都会非常合适
欢迎来到本站!假设我正确理解了您的问题,我认为您可以实现一个工作模型。
如果我处于你的位置,我会:
最后,当您使用新数据进入预测阶段时,您的整个项目会变得更加有趣。您将执行相同的操作并将文档分解为 ngram,并为每个 ngram 创建预测并输出结果。换句话说,你需要分解你的文档,然后转身重新构建它——这应该是一个有趣的脚本!祝你好运,让我们知道结果如何。