什么是正则化潜在嵌入的最佳方法,我有两种解决方案,但我不确定使用哪一种。
在批量训练中对整个嵌入矩阵进行正则化,但这在计算方面过于昂贵
对当前批次中的项目嵌入进行正则化,但由于现实世界的数据集往往在数据集中具有非均匀分布的项目,因此模型可能会比长尾项目更多地惩罚常见的项目
有没有更好的方法来处理这种情况或上述方法的任何即兴创作?
什么是正则化潜在嵌入的最佳方法,我有两种解决方案,但我不确定使用哪一种。
在批量训练中对整个嵌入矩阵进行正则化,但这在计算方面过于昂贵
对当前批次中的项目嵌入进行正则化,但由于现实世界的数据集往往在数据集中具有非均匀分布的项目,因此模型可能会比长尾项目更多地惩罚常见的项目
有没有更好的方法来处理这种情况或上述方法的任何即兴创作?