新闻 news
您现在的位置:首页 > 新闻 > 为什么深层网络不顾统计直觉而泛化

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

为什么深层网络不顾统计直觉而泛化

发布时间:2020/03/03 新闻 浏览:431

 
入门级统计课程告诉我们,在将模型拟合到某些数据时,与自由参数相比,我们应该拥有更多的数据,以避免过度拟合的危险-过于嘈杂地拟合嘈杂的数据,从而无法拟合新数据。因此,令人惊讶的是,在现代深度学习中,这种做法比数据具有更多数量级的参数。尽管如此,深度网络仍显示出良好的预测性能,并且实际上,它们拥有的参数越多越好。为什么会这样呢?
一段时间以来,众所周知,机器学习的良好性能来自于控制网络的复杂性,这不仅仅是自由参数数量的简单函数。分类器(例如神经网络)的复杂性取决于测量该网络表示的功能空间的“大小”,并建议了多种技术措施:Vapnik–Chervonenkis维度(涵盖数字)或Rademacher复杂度一些。这些概念所衡量的复杂性可以在学习过程中通过对参数范数施加约束来控制,即简而言之,即参数可以达到的“大”程度。令人惊讶的事实是,在训练深度网络时似乎不需要这种明确的约束。深度学习是否在经典学习理论之外?我们需要重新考虑基础吗?
在《自然通讯》的新论文“深度网络中梯度下降的复杂性控制”中,由麻省理工学院的脑与认知科学系的尤金·麦克德莫特教授托马索·波焦(Tomaso Poggio)领导的大脑,思维和机器中心的团队,通过解决现代深度学习最实际,最成功的应用:分类问题,为这个难题提供了一些启示。
“对于分类问题,我们观察到,实际上模型的参数似乎没有收敛,而是在梯度下降过程中无限期地增长。但是,在分类问题中,仅归一化参数很重要,即它们定义的方向,而不是它们的大小。”合著者和MIT博士说。候选人廖倩丽。 “我们展示的不太明显的是,未归一化参数上常用的梯度下降导致对归一化参数进行所需的复杂度控制。”
Poggio说:“在诸如内核机之类的浅线性网络回归的情况下,我们已经知道一段时间了,梯度下降的迭代提供了隐式,消失的正则化效果。” “实际上,在这种简单情况下,我们可能知道我们得到了性能最佳的最大利润率,最小范数解决方案。那么,我们问自己的问题是:深度网络是否会发生类似的事情?”
研究人员发现确实如此。正如合著者和麻省理工学院博士后安德烈·班伯斯基(Andrzej Banburski)所解释的那样:“对深度网络的了解表明,有明确的方向可以改进我们的算法。实际上,我们已经看到暗示,控制这些非标准化参数的发散速率可以使我们找到性能更好的解决方案,更快地找到它们。”
这对机器学习意味着什么?深度网络背后没有魔力。所有线性模型背后的相同理论也在这里发挥作用。这项工作提出了改进深度网络的方法,使它们更准确,更快速地进行训练。