假设我们有一些数据集,有很多实例和一个目标. 如果它很重要,你可以假设它是一个“现实生活”的数据集:中等大小,具有重要的相关性,y 是不平衡的......等等。
还可以说这个数据集是相对感兴趣的:研究领域相当活跃,但没有(或只有少数)可用的数据集。所以我们正在考虑发布我们的数据集。
但是,出于隐私问题,无法直接发布。已经考虑了基本方法(假名化、对实例进行分组以实现统计披露控制、发布旧数据集),但大部分都被搁置了。
研究领域专注于学习的判别方法 , 基于 . 但是,我最近开始阅读有关生成方法的内容。所以我很好奇(1)是否有生成技术可以用来分享关于X 无法识别任何单个实例。
我认为将生成模型(/生成模型的输出)分享给试图构建判别模型的人的有用性可能会受到生成模型的固有性能的限制。除了校准 SOTA 判别模型两次(一次在真实数据上,一次在生成数据上)并比较性能之外,还有更多的东西吗?分享在我们的数据集上校准的 SOTA 算法不是更好吗?