从经过训练的模型中取消学习单个训练示例

数据挖掘 机器学习 数据 隐私
2021-09-17 21:00:53

我正在阅读 google 的论文“ The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction ”,其中建议了生产模型的最佳实践。在有关数据管道中的隐私控制的部分中,它说:

最后,测试任何用户请求的数据删除是否会传播到 ML 训练管道中的数据以及任何学习模型。

我了解从数据管道中删除数据,但是否有可能在不重新训练新数据的情况下“取消学习”单个训练示例?他们在论文中提到,谷歌在某些时候正在使用这些做法,所以可能有一种有效的方法,但我无法获得任何有关这方面的信息。

我正在寻找有关此的任何文献或有关如何继续解决此问题的任何想法。

编辑:在进一步的研究中,我发现这篇论文侧重于具体问题。尽管做了很多假设,但他们也提出了一种 k-means 方法。看起来这是一个即将到来的研究领域,需要时间来发展!

1个回答

是否有可能在不重新训练新数据的情况下“取消学习”单个训练示例?

据我所知,答案是否定的,除非在一些非常特殊的情况下。

想到的最明显的例外是基于实例的学习,例如 kNN:由于“模型”本身仅包含一组训练实例,因此删除实例很简单。

一般来说,监督机器学习依赖于基于训练集实例的泛化模式。任何重要的模型都由多个这样的模式组成,每个模式都可能来自不同的实例子集。即使有一种方法可以跟踪哪个实例参与了哪个模式(这将是非常低效的),删除任何模式都可能导致模型失败。