English
北京大学林宙辰教授做客清华软件论坛 分享“Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models”
分享到
发布于 2023-05-17

5月11日,清华软件论坛第十七期邀请到北京大学林宙辰教授作题为“Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models”的学术报告。软件学院学术委员会主任刘世霞教授、青年教师高跃、龙明盛、裴忠一及校内师生和校友等近百人通过线上线下方式参会。本次学术论坛由刘世霞主持。

林宙辰线下作报告

林宙辰首先指出了当前调试深度神经网络的痛点,即不同类型的深度神经网络通常需要不同的优化器,模型开发者仅能通过反复试错来确定合适的优化器及其参数。针对这一痛点,林宙辰将Nesterov加速方法与自适应梯度算法相结合,提出了Adan算法。Adan算法首先对传统的Nesterov加速方法进行了改进,提出了一种新的Nesterov动量估计方法,然后采用这一方法来估计梯度的一阶和二阶矩以加速收敛过程。该估计方法可以很好地与现有的深度学习框架兼容,有高效的计算方式。理论分析表明Adan算法可以在随机非凸优化问题中达到目前优化速度的下界。一系列的实验结果表明,Adan在计算机视觉、自然语言处理和强化学习等领域中一致优于现有的优化器,能以一半的训练时间达到原有的训练效果,并以相同的训练时间得到最优的训练效果。与Google最新提出的优化器Lion相比,Adan有严格的理论保证,训练后网络的表现更好并且拥有更好的运行效率。

在问答交流环节,参会师生围绕ADAN关键证明、参数、自适应学习的可能性和策略以及科研合作成果保护等进行提问,林宙辰结合ADAN的优势和未来发展等方面逐一进行分析和详细解答。

会议现场

嘉宾介绍

林宙辰,北京大学信息科学技术学院教授,IAPR/IEEE/CSIG Fellow,中国图象图形学学会机器视觉专委会主任,中国自动化学会模式识别与机器智能专委会副主任。研究领域为机器学习、 数值优化。发表论文 260 余篇,英文专著 3本。多次担任机器学习与人工智能顶级会议 CVPR、ICCV、NIPS/NeurIPS、ICML、IJCAI、AAAI 和 ICLR 的领域主席,曾任 IEEE T. Pattern Analysis and Machine Intelligence 编委,现任 International J. Computer Vision / Optimization Methods and Software 编委、ICPR 2022程序共同主席、ICML 2022/NeurIPS 2022/CVPR 2023资深领域主席。


编辑:董超 审核: