请选择 进入手机版 | 继续访问电脑版
设为首页 收藏本站
开启辅助访问 快捷导航
菜单
从零开始 资讯 查看内容

深度进修引擎之争:GPU加速还是专属神经收集芯片?

2020-2-19 20:14 发布者: 浪漫无边际缺 评论 0 查看 174
深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,可谓深度学习的“燃料”和“引擎”,GPU则是引擎的引擎,基本所有的深度学习计算平台都采用GPU加速。同时,深度学习也成为G ...
深度进修(Deep Learning)在这两年风行全球,大数据和高性能计较平台的鞭策感化功不成没,可谓深度进修的“燃料”和“引擎”,GPU则是引擎的引擎,根基一切的深度进修计较平台都采用GPU加速。同时,深度进修也成为GPU供给商NVIDIA的一个新的计谋偏向。

那末,GPU用于深度进修的最新停顿若何?这些停顿对深度进修框架有哪些影响?深度进修开辟者应当若何发挥GPU的潜力?GPU与深度进修连系的远景以及未来技术趋向究竟是怎样样的?在日前的NVIDIA深度进修中国计谋公布会上,NVIDIA全球副总裁、PSG兼云计较营业中国区总司理Ashok Pandey率领其深度进修相关治理团队接管了记者的采访,就NVIDIA的深度进修计谋、技术、生态、市场相关题目停止了具体的解读。

NVIDIA以为,今朝是数据、模子和GPU在鞭策深度进修的兴旺成长,深度进修用户可以挑选分歧的计较平台,但开辟职员需要一个易于摆设的平台和杰出的生态情况,包括一些基于硬件优化的开源工具,而构建一个杰出的深度进修计较生态,既是GPU现有的上风,也是NVIDIA一向的主旨。

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

为什么GPU与深度进修很合拍?

随着数据量和计较力的提升,Hinton和LeCun耕作多年的大型神经收集终有用武之地,深度进修的性能和进修精度获得很大的提升,被普遍应用到文本处置、语音和图像识别上,不但被Google、Facebook、百度、微软等巨头采用,也成为猿题库、旷视科技这类草创公司的焦点合作力。

那末为什么是GPU呢?最重要的是GPU出色的浮点计较性能出格进步了深度进修两大关键活动:分类和卷积的性能,同时又到达所需的精准度。NVIDIA暗示,深度进修需要很高的内在并行度、大量的浮点计较才能以及矩阵预算,而GPU可以供给这些才能,而且在不异的精度下,相对传统CPU的方式,具有更快的处置速度、更少的办事器投入和更低的功耗。

采用GPU加速与只采用CPU练习CNN的性能比力

以ImageNet比赛为例,基于GPU加速的深度进修算法,百度、微软和Google的计较机视觉系统在ImageNet图像分类和识别测试中别离到达了5.98%、4.94%、4.8%、的毛病率,接近或跨越了人类识别水平——跑分比赛虽然有针对已知数据集停止特定优化之嫌,但优化成果对产业界的理论仍然具有参考代价。

“野生智能从曩昔基于模子的方式,酿成现在基于数据、基于统计的方式,首要得益于GPU高度并行的结构、高效快速的毗连才能。究竟证实GPU很合适深度进修。”北京航空航天大学教授、国家“十二五 863计划高效能计较机及利用办工作况”严重项目整体组组长钱德沛说。

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

NVIDIA回首了GTC上推出的四项有助于鞭策深度进修成长的新产物和计划:

1、GeForce GTX TITAN X,为练习深度神经收集而开辟的GPU。

TITAN X采用 NVIDIA Maxwell GPU 架构,连系 3,072 个处置焦点、单精度峰值性能为 7 teraflops,加上板载的 12GB 显存,336.5GB/s 的带宽,可处置用于练习深度神经收集的数百万的数据。

NVIDIA先容,TITAN X 在产业标准模子 AlexNet 上,花了不到三天的时候、利用 120万个 ImageNet 图像数据集去练习模子,而利用16焦点的 CPU 得花上四十多天。

2、DIGITS DevBox,针对研讨职员的桌边型深度进修工具。

DIGITS DevBox采用四个 TITAN X GPU,从内存到 I/O的每个组件都停止了最好化调试,预先安装了开辟深度神经收集所需要利用到的各类软件,包括:DIGITS 软件包,三大风行深度进修架构Caffe、Theano和Torch,以及 NVIDIA 完整的 GPU 加速深度进修库 cuDNN 2.0。和其他巨头一样,NVIDIA对开源的支持也是竭尽尽力。

NVIDIA暗示,在关键深度进修测试中,DIGITS DevBox 可以供给 4 倍于单个 TITAN X 的性能。利用 DIGITS DevBox 来练习 AlexNet 只要13个小时就能完成,而利用最好的单 GPU PC 的话则是两天,纯真利用 CPU 系统的话则要一个月以上的时候。

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

3、下一代GPU 架构Pascal,将使深度进修利用中的计较速度相比Maxwell加速十倍。

Pascal引入了大幅加速练习速度的三项设想,包括:32GB 的显存(是GeForce GTX TITAN X 的 2.7 倍),可停止夹杂精度的计较使命,可以在 16 位浮点精度下具有两倍于 32 位浮点精度下的速度的计较速度;装备 3D 堆叠显存,让开辟职员能建立更大的神经收集,提升深度进修利用法式的速度性能多达5倍;另搭配 NVIDIA 的高速互连技术 NVLink 来毗连两个以上的 GPU,可将深度进修的速度提升达十倍。

NVIDIA暗示,现在在深度进修范畴一般都用单精度停止,未来的趋向能够有人要用半精度,甚至1/4精度,所以NVIDIA需要按照用户的需求调剂GPU的架构,Pascal支持FP16和FP32,可以提升机械进修的性能。

4、DRIVE PX,用于自动驾驶汽车的深度进修平台。

基于NVIDIA Tegra X1,连系最新的PX平台,可以让汽车在仪表显现和自动驾驶方面获得质的奔腾。

值得关注的NVLink和DIGITS

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

谈到下一代Pascal 架构的十倍性能,不能不说NVLink,它使得 GPU 与 GPU 之间、GPU 与 CPU 之间数据传输的速度,较现有的 PCI-Express 标准加速5到12倍,对于深度进修这些需要更高 GPU 间传递速度的利用法式来说是一大福音。开辟者该当兴奋的是,NVLink基于点对点传输形式,编程形式与 PCI-Express 不异。

NVIDIA暗示,NVLink 可将系统里的 GPU 数目增加一倍,以配合用于深度进修计较使命上;还能以新的方式毗连 CPU 与 GPU,在办事器设想方面供给较 PCI-E 更出色的灵活性和省电表示。

实在不管要做数据并行还是模子并行,NVLink对深度进修开辟职员都带来更大的设想空间。国内语音识别领头羊科大讯飞,基于多GPGPU和InfiniBand构建了一个环形的并行进修架构,用于DNN、RNN、CNN等模子练习,结果不错,但采用InfiniBand也让其他从业者恋慕其“土豪”行动,倘使有了NVLink,明显可以有此外好法子。

固然,想用NVLink也意味着新的投资,而NVIDIA现有的产物线对深度进修的支持也不错,用户可以酌情挑选。更多的深度进修硬件挑选常识,可以参考Kaggle角逐选手Tim Dettmers撰写的博文:《深度进修硬件指南完整版》。

别的一个是DIGITS,用于设想、练习和考证图像分类深度神经收集的多合一图形系统。DIGITS 可在安装、设置和练习深度神经收集进程中为用户供给指导,具有便于从当地和收集加载练习数据集的用户界面和工作流程治理才能,并供给实时监控和可视化功用,今朝支持 GPU 加速版本 Caffe,详见Parallel Forall 博客:《DIGITs: Deep Learning Training System》。

DIGITS之所以首先挑选支持Caffe,NVIDIA暗示,是由于他们的客户调研成果显现这一框架今朝最受接待(包括国内的BAT等和国外的一些用户),同理,cuDNN运算库也是最早集成到Caffe开源工具中。NVIDIA许诺,即使不能覆盖一切的工具,DIGITS后续也会对支流的开源工具供给支持,主如果前述的Theano和Torch。NVIDIA全球在DIGITS、cuDNN团队都别离投入30多人到开源工作当中,这些开辟职员也在社区中与深度进修开辟者连结亲近的相同。

在NVIDIA看来,国内的深度进修研讨水平与国外机构基底细当,从高校科研的角度来说,香港中文大学、中科院自动化所都获得ImageNet不错的名次,从产业界来说,BAT、乐视、科大讯飞等都在深度进修范畴具有很多年轻的工程师和不错的研讨功效。NVIDIA希望增强中国生态情况的扶植,鞭策深度进修的利用,首要方式仍然包括开源社区的投入、高校科研合作、办事器厂商的合作以及企业用户的合作。

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

采用GPU加速的深度进修的企业

GPU还是公用芯片?

虽然深度进修和野生智能在宣传上炙手可热,但不管从仿生的视角抑或统计学的角度,深度进修的产业利用都还是初阶,深度进修的理论根本也尚未建立和完善,在一些从业职员看来,依靠聚积计较力和数据集获得成果的方式显得过于暴力——要让机械更好地了解人的意图,就需要更多的数据和更强的计较平台,而且常常还是有监视进修——固然,现阶段我们还没稀有据不敷的忧愁。未来能否在理论完善以后不再依靠数据、不再依靠于给数据打标签(无监视进修)、不再需要向计较力要性能和精度?

退一步说,即使计较力还是必须的引擎,那末能否一定就是基于GPU?我们晓得,CPU和FPGA已经显现出深度进修负载上的才能,而IBM主导的SyNAPSE巨型神经收集芯片(类人脑芯片),在70毫瓦的功率上供给100万个“神经元”内核、2.56亿个“突触”内核以及4096个“神经突触”内核,甚至答应神经收集和机械进修负载超越了冯·诺依曼架构,两者的能耗和性能,都足以成为GPU潜伏的应战者。例如,科大讯飞为打造“讯飞超脑”,除了GPU,还斟酌借助深度定制的野生神经收集专属芯片来打造更大范围的超算平台集群。

深度进修引擎之争:GPU加速还是专属神经收集芯片?_资讯_2020-2-19 20:14发布_从零开始_174

不外,在两者尚未产物化的明天,NVIDIA并不担忧GPU会在深度进修范畴得宠。首先,NVIDIA以为,GPU作为底层平台,起到的是加速的感化,帮助深度进修的研发职员更快地练习出更大的模子,不会遭到深度进修模子实现方式的影响。其次,NVIDIA暗示,用户可以按照需求挑选分歧的平台,但深度进修研发职员需要在算法、统计方面不断改进,都需要一个生态情况的支持,GPU已经构建了CUDA、cuDNN及DIGITS等工具,支持各类支流开源框架,供给友爱的界面和可视化的方式,并获得了合作伙伴的支持,例如浪潮开辟了一个支持多GPU的Caffe,曙光也研发了基于PCI总线的多GPU的技术,对熟悉串行法式设想的开辟者加倍友爱。相比之下,FPGA可编程芯片大概是野生神经收集专属芯片对于植入办事器以及编程情况、编程才能要求更高,还缺少通用的潜力,不合适提高。

中科云达(北京)科技有限公司建立于2016年,公司位于北京市国际信息产业基地。公司一向努力于为广大用户供给GPU高性能计较、深度进修、虚拟化仿真、定制化办事器、工作站、存储等软硬件整体处理计划,并与多家著名技术型领先厂商如超微(Supermicro)、英特尔(Intel)、华硕(ASUS)、英伟达(NVIDIA)等建立了持久的合作关系。

鲜花

握手

雷人

路过

鸡蛋
收藏 分享 邀请

相关阅读

最新评论

一周热门

头条攻略!

日排行榜

相关分类