深度学习中的Adam优化算法详解
发布时间:2024-04-29 04:26:13
Adam 算法有哪些优点?Adam 算法的提出者描述其为两种随机梯度下降扩展式的优点集合,即: 适应性梯度算法 (AdaGrad)为每一个参数保留一个学习率以提升在稀疏梯度(即自然语言和计算机视觉问题)上的性能。 均方根 传播(RMSProp)基于 权重梯度 最近量级的均值为每一个参数适应性地保留学习率。 这意味着算法在非稳态 和在线 问题上有很有优秀的性能。 Adam 算法同时获得了 AdaGrad 和 RMSProp 算法的优点。 Adam 不仅如 RMSProp 算法那样基于 一阶矩均值 计算适应性参数学习率,它同时还充分利用了梯度的 二阶矩均值 (即有偏方差/uncentered variance)。

平台注册入口