• 忙着给孩子报夏令营?专家:不妨让孩子过个无聊暑假 2019-07-23
  • 云南昆明:持续3年开展市容环境整治提升 2019-07-23
  • 【中国梦·大国工匠篇】鸡蛋上钻孔显真功 潜心坚守一线练就绝活儿 2019-07-22
  • 海淀城管夜查渣土车 全力保障高考备考环境 2019-07-22
  • 只有买房才能幸福?张天翼《粉墨》:北漂生活的戏谑与哀愁 2019-07-15
  • 特朗普还不敢和朝鲜动兵,他知道中朝友好和平条约意味着什么。 2019-07-06
  • 刚续约就这表现?铁卫诡异手球送礼 法国壕阵险被逼平 2019-07-02
  • 《国家社科基金项目成果选介汇编》第三辑 2019-06-30
  • 险企偿付能力2017年“成绩单”:3家不达标 7家被关注 2019-06-30
  • 90后女生抛下帝都生活 仅花了6万元建了一幢别墅! ——凤凰网房产 2019-06-29
  • [大笑]小撸是三叶虫还是鱼鐅? 2019-06-23
  • 湖南提前一年全面建立河长制 地表水水质监测总体为优 2019-06-21
  • 筑牢主流 摈弃“历史虚无主义” 2019-06-13
  • 一周人事:钱洪山任中共中央对外联络部副部长 2019-06-13
  • 定陶战役:示弱于敌重点围歼的范例 2019-06-11
  • 专业下载站,下载软件就到188下载站

    彩票走势图怎么制作:体彩排列五

    您的位置: 体彩排列五>资讯频道>智能科学

    大批量深度学习为何泛化效果差?

    大批量深度学习为何泛化效果差?

    17-04-27 | 作者:陌路 |

    体彩排列五 www.kj641.com 188软件园AI科技评论按:ICLR 2017 于4月24-26日在法国土伦举行,188软件园AI科技评论的编辑们也于法国带来一线报道。在这个深度学习会议举办之际,188软件园也围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

    58feab28db690.jpg

    由西北大学(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特尔的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期发表的论文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,当选 ICLR 2017的oral paper。文章描述了在传统神经网络训练时,大的 batch size(如,超过512)会导致网络模型泛化能力下降的问题,并通过实验证明其原因是泛化误差和尖锐收敛,并提出了一些解决方案。

    很多深度学习过程中都在算法上应用了随机梯度下降的方法或随机梯度下降的衍生方法。但是这种方法一般适用于小批量(样本数量在32-512之间)的计算。观察数据显示,当大批量计算时(样品数量超过512),如果用泛化能力作为标准的话,模型的计算质量就会下降。Intel与西北大学研究的这篇文章,就这个问题进行了讨论,并提出了大量的证据证明大批量的方法会倾向于将模型和函数归一化,从而导致尖锐收敛,并最终生成了比较差的泛化效果。

    论文分析了在小批量情况下结果不同的原因,并提出这种不同来自于在梯度预测时内部噪声的差异。如下图片,在这个案例中,随机的选择一组小批量(SB)和大批量(LB)的最小值,可以发现,LB极小值比SB极小值更加尖锐。因此,泛化能力则更低一些。同时,论文还就减小泛化间隙的问题提出了在大批量计算中适用的几种策略,开放性的预留了未来的讨论点,包括在大批量计算中可进行的尖锐收敛和可能的优化方案。

    1.jpg

     

    ICLR评论:

    ICLR委员会最终决定:

    对这篇论文的评论普遍非常正面,这说明了这篇论文映射了一个在工程应用领域普遍存在的问题。我相信整个研究环境会通过阅读这篇论文得到一些建设性的解决问题的新思路。

    决定:接受(Oral)

    大批量训练的分析

    评分:8分,Top 50%,明确接受

    评论:这是一篇很有趣的文章,就为什么大批量训练效果变差的原因进行了分析,这对整个深度学习的社区有着重要的意义。

    很好的文章

    评论:我想这篇文章明确了一点,大批量计算时,泛化效果就会变差。并通过对比分析大批量和小批量的失真函数进行了很好的阐释。

    文章不够新颖但是实验数据非常有价值

    评分:10分,Top 5%,这是一篇研讨会文章

    很好的文章:

    评分:6分,刚好及格

    评价:我觉得这篇文章还不错,很有趣也很有用,但是如果增加更多的论证,比如增加一些高斯噪声梯度的分析。

     

    1.jpg

    网友评论

    您的评论需要经过审核才能显示 网名

    0条评论>网友评论