在Andrew Ng 的 Coursera 机器学习课程的第 5 周讲义中,给出了以下公式来计算用于用随机值初始化
在练习中,进一步澄清:
选择的一种有效策略 是基于网络中的单元数量。的一个不错的选择 是,其中和相邻的层中的单元数。
为什么这里使用常数?为什么不,或?
在Andrew Ng 的 Coursera 机器学习课程的第 5 周讲义中,给出了以下公式来计算用于用随机值初始化
在练习中,进一步澄清:
选择的一种有效策略 是基于网络中的单元数量。的一个不错的选择 是,其中和相邻的层中的单元数。
为什么这里使用常数?为什么不,或?
我相信这是 Xavier归一化初始化(在几个深度学习框架中实现,例如 Keras、Cafe 等),来自Xavier Glorot 和 Yoshua Bengio的了解训练深度前馈神经网络的难度。
请参阅相关论文中的方程 12、15 和 16:它们旨在满足方程 12:
中均匀 RV 的方差为(均值为零,pdf =所以方差