如您所知,在联邦学习环境中,客户端使用其非 iid 数据训练联合全局模型的本地版本,并且每个客户端都向全局模型提交更新,该更新将被聚合到下一个联合全局模型中。
Batch Normalization 层在训练阶段发生的归一化是基于本地批量统计的。我的问题是,如何为全局模型汇总这些局部统计数据(批量标准化参数),以便它们代表所有数据的全局统计数据?我说的是每个批次标准化层的 beta、alpha、移动均值和方差。我们是否应该将它们视为完全连接(或 Conv)层的权重和偏差并简单地平均它们?
如您所知,在联邦学习环境中,客户端使用其非 iid 数据训练联合全局模型的本地版本,并且每个客户端都向全局模型提交更新,该更新将被聚合到下一个联合全局模型中。
Batch Normalization 层在训练阶段发生的归一化是基于本地批量统计的。我的问题是,如何为全局模型汇总这些局部统计数据(批量标准化参数),以便它们代表所有数据的全局统计数据?我说的是每个批次标准化层的 beta、alpha、移动均值和方差。我们是否应该将它们视为完全连接(或 Conv)层的权重和偏差并简单地平均它们?
一种方法是简单地平均所有内容,如 FedAvg 预印本中所建议的那样。
正如 SiloBN 预印本所建议的那样,一些最近的预印本建议仅将学习到的参数传递回中央服务器,并将本地批量标准化 (BN) 统计数据分开。
该论文的作者声称:
保持 BN 统计本地化允许对不同中心的异质性具有鲁棒性的模型进行联合训练,因为本地统计确保中间激活在不同中心之间集中到相似的值。
转述它们;他们将 BN 统计信息区分为本地域信息的编码,而学习的参数将是域不变的。我相信他们对中继信息的聚合方法只是平均。