廉价版最难抢,芯片上视觉任务的神经网络设计

2019-10-31 21:24栏目:互联网
TAG:

在讲这个问题之前,我们先从神经网络的特性说起:

闪电购是业内领先的实体零售数字化升级服务商,此前,闪电购已经帮助世纪联华、华润苏果、美宜佳等多家实体零售企业搭建全渠道业务体系,并取得了显著效果,涌现出一大批日均线上订单500单左右的门店,单店峰值超过2000订单。闪电购将持续为中商平价提供全面的技术支持和运营服务,帮助中商平价快速建设成熟的会员营销和数字化运营体系,提升线上线下一体化的业务能力。

责任编辑:

我们可以看到,无论是哪一家的方案,损失其实都非常小,其中,小模型 MobileNet 0.25 在 Image Net 的损失方面,Google 在 1.6% 左右,而我们的量化方案能够维持在 0.5% 以内。同时我们这个量化方案在 2016 年就已经成熟了,而 Google 的去年才放出来,从这个角度上讲,我们这方面在业界内是领先的。

图片 1

近日,彭博社从产业链获得了可靠消息,声称6.1英寸iPhone初期货源极少,但会与另外两款机型即iPhone Xs、iPhone Xs Max一同发售,时间锁定在9月21日。返回搜狐,查看更多

雷锋网 AI 研习社将其分享内容整理如下:

原标题:武汉中商与闪电购合作全面入驻三大外卖平台

原标题:5000起!新iPhone将在这天上市:廉价版最难抢

第一,当前 AI 芯片发展的现状。这里的 AI 芯片并不是单指狭义的 AI 专用芯片,而是指广义上包括 GPU 在内所有可以承载 AI 运算的硬件平台。

责任编辑:

最常见的图像级别的感知任务比如图像分类、人脸识别等,由于它们输入比较小,所以整体计算量并不大,对于网路的效率要求也没有那么苛刻。而在图像分类以外的工作比如物体检测 语义分割等等,它们的输入比图像分类大得多,往往在 1280x720 这种分辨率或者更大的分辨率。MobileNet 或者 ShuffleNet 在这个分辨率下的计算量,还是挺高的。另外在物体检测、语义分割的问题当中,尺度是一个要考虑的因素,所以我们在设计网络的时候,要针对尺度问题做一些额外的配置,包括并引入更多分支,调整合适的感受野等等。

业内人士指出,武汉作为全国消费潜力最大的城市之一,已经成为各支新零售势力角逐的重点区域。武汉中商作为深耕本地市场的零售企业,在业务创新方面表现出了高度的前瞻性,基于对本地消费市场的深刻理解,结合闪电购等新兴服务商的技术升级,在消费场景和服务上,将会带来更多的想象空间。返回搜狐,查看更多

最后讲一讲模型结构优化,它是对模型加速最有效的方式。下图可以看到从最初的 AlexNet 到今年的 MobileNetV2,参数已经从原来的 240MB 缩小到 35MB,模型的计算量也有了一定的减少,但是在图像分类的准确率上,从 57% 提到到了 75%,模型结构优化最直接的方式就是,有经验的工程师去探索小模型结构,而这些年来也有通过机器去进行搜索模型结构的工作。

日前,武汉中商旗下的中商平价超市与闪电购正式达成合作,共同推进新零售战略的落地。闪电购将助力中商平价超市,建立全渠道业务体系,实现会员及营销数字化,双方将在系统对接、线上运营、门店升级等多个环节展开合作。

我们能够提供给大家什么呢?这也是大家比较感兴趣的点。我将从职位、工作地点和福利三个方向讲一下。

中商平价超市作为武汉中商集团旗下以连锁超市经营为主的零售业态,拥有60家门店,覆盖武汉、黄石、荆门、荆州等多个城市。近年来,中商平价超市立足全渠道战略,基于现有门店网络布局,持续打造线上线下一体化的全渠道业务体系,为消费者提供更快捷、全场景的购物体验。

图片 2

图片 3

图片 4

对于中商平价来说,入驻三大外卖平台只是第一步,后续还将通过闪电购量身打造的小程序,承载更多的创新业务,提供电子会员、拼团、预售等一系列数字化营销玩法, 建立完善的会员数字化解决方案,实现对门店周围3公里的消费者进行精准化运营。

与网络量化相比,剪枝和参数共享从应用角度上来看,并非一个好的解决方案。因为关于剪枝方面的研究,现在这些论文在大模型上做的比较多,所以在大模型上效果比较好,但是在小模型上的损失比较大,当然我们这里说的小模型是比 MobileNet 等模型更小的一些模型。另外,剪枝所带来的数据稀疏(任意结构稀疏),通常需要一个明显的稀疏比例才能带来一个实质性的的加速。结构化的稀疏加速比相对更容易达到,但是结构化的稀疏比较难训练。同时从硬件角度上讲,如果要高效地运行稀疏化的网络结构或者带共享的网络,就要专门设计硬件去支持它,而这个开发成本也比较高。

闪电购为中商平价提供了完整的线上业务规划、技术方案和运营体系搭建。首先中商平价通过闪电购全渠道中台,从之前已经入驻的京东到家,进一步入驻饿了么、美团外卖,全面覆盖三大外卖平台。9月初,已经有20多家中商平价门店在饿了么、美团外卖等平台上线,并初步产生订单,后续所有门店将全部入驻三大外卖平台。

我们这个网络同时去做物体检测和语义分割,以及人体姿态估计。FPGA 也是我们第二代芯片的一个原型,第二代芯片年底会流片回来,单块芯片性能会是 FPGA 这个平台的 2-4 倍。这个数据是在美国的拉斯维加斯采集的,除了人体姿态的检测,我们还做了车载三维关键点定位,它的运行速度可以达到实时,也作为我们重要的产品在车厂中使用。Demo 只是我们工作的冰山一角,我们还有很多其他的方向的工作,比如智能摄像头、商业场景下的应用,目标是为万物赋予智能,从而让我们的生活更美好。这是我们的宣传片,相信大家在进职播间的时候都已经看过了。

图片 5

图片 6

介绍 AI 芯片之前,先介绍 AI 的大环境。大家都知道现在是机器学习时代,其中最具代表性的是深度学习,它大大促进图像、语音、自然语言处理方面的发展,同时也给很多行业带来了社会级的影响。例如在社交网络的推荐系统、自动驾驶、医疗图像等领域,都用到了神经图像技术,其中,在图像医疗,机器的准确率甚至大大超过了人类。

我们先看 AI 解决方案,它从数据处理的方式可以分为云端 AI 和前端 AI。云端 AI 是说我们把计算放在远程服务器上去执行,然后把结果传到本地,这个就要求设备能够时刻连接网络。前端 AI 是指设备本身就能够进行计算,不需要联网,其在安全性、实时性、适用性都会比云端 AI 更有优势,而有一些场景下,也只能使用嵌入式的前端 AI 去解决。

图片 7

Google 的这项工作大概用了 450 GPUs 和 4 天,搜索出了性能和计算量都还不错的网络结构,这两个图是网络结构的基本单元。然而,通过我们之前的分析,它这两个基本单元肯定是跑不快的,因为操作太零碎,而且很多操作没有办法并行。所以对于搜索网络结构,考虑真实的运行速度是一个更合适的选择。所以就有了后续的工作,叫做 MnasNet。

其实也是可以的,比如说 Google 前段时间进行一项工作叫 NASNet,就是通过强化学习,把图像分类的准确率和网络本身的计算量作为反馈,去训练网络结构生成器,让网络结构生成器去生成比较好的网络结构。

当前 AI 芯片发展的现状

宣讲学校:东南大学、哈尔滨工业大学、华中科技大学、南京大学、清华大学、上海交通大学、西安交通大学、浙江大学、中国科学技术大学和 中国科学院大学等十所学校。

比较值得一提的是,我们在我们的 BPU 架构上设计了弹性的 Tensor Core,它能够把图像计算所需要的基本单元,常用操作例如卷积、Pooling 等硬件化,非常高效地去执行这些操作。中间通过数据路由桥(Data Routing Bridge)从片上读取数据,并负责数据的传输和调度,同时,整个数据存储资源和计算资源都可以通过编辑器输出的指令来执行调度,从而实现更灵活地算法,包括各种类型的模型结构以及不同的任务。

虽然刚刚提了很多神经网络加速的解决方案,但是最合适的还是 CPU+专用芯片。我们需要专用 AI 芯片的主要原因是: 虽然现在的硬件工艺不断在发展,但是发展的速度很难满足深度学习对计算力的需求。其中,最重要有两点:

图片 8

分享结束后,两位嘉宾还对同学们提出的问题进行了回答,大家可以点击文末阅读原文移步社区进行详细了解。

最后,ShuffleNetV2 也指出,Element-wise 对于速度的影响也是不可忽视的——一定程度上可以这么说。因为 Element-wise 虽然计算量很小,但是它的带宽需求比较大。其实如果把 Element-wise 的操作和卷积结合在一起,那么 Element-wise 的操作对最后带宽带来的影响几乎为 0。常用的例子是,我们可以把卷积、激活函数和 BN 放在一起,这样的话,数据可以只读一次。

图片 9

最后回归本次做直播的一项非常重要的目的——校招。我们今年的校招马上要开始了,接下来由 HR 姐姐来介绍一下地平线招聘的情况。

知识蒸馏也是很常用的压缩模型方法,它的思想很想简单,用一个小模型去学习一个大模型,从而让小模型也能实现大模型的效果,大模型在这里一般叫 Teacher net,小模型叫 Student net,学习的目标包括最终输出层,网络中间的特征结果,以及网络的连接方式等。知识蒸馏本质上是一种迁移学习,只能起到锦上添花的作用,比直接用数据去训练小模型的效果要好。

图片 10

简历投递方式:包括网申和宣讲会现场投简历。

分享主题:面向低功耗 AI 芯片上视觉任务的神经网络设计

原标题:干货 | 地平线:面向低功耗 AI 芯片上视觉任务的神经网络设计 | 职播间第 2 期

下面展示一下我们算法在 FPGA 平台上实施的一个 Demo。

图片 11

大家好,我是地平线负责招聘的 HR 赵红娟,接下来我来整体介绍一下公司的情况以及校招流程。

大规模运用深度学习需要去应对很多挑战。首先从算法和软件上看,如果把 AI 和深度学习用在某个行业中,需要对这个行业的场景有深入的理解。场景中也有很多痛点需要去解决,但是是否一定要用深度学习去解决呢?在特定场景下,往往需要具备能耗比、性价比的解决方案,而不是一个仅仅能够刷数据集的算法。随着这几年算法的快速发展,人们对 AI 的期望也在不断提高,算法的发展是否能跟上大家的期望,这也是一个问题。

除了量化,模型加速还可以通过模型剪枝和参数共享实现。一个典型的案例就是韩松博士的代表性工作——Deep Compression。减支可以是对整个卷积核、卷积核中的某些通道以及卷积核内部任意权重的剪枝,这里就不多说,大家有兴趣可以去看一下原论文。

  1. 介绍当前 AI 芯片概况,包括现有的深度学习硬件发展情况,以及为何要为神经网络去设计专用芯片。
  2. 从算法角度,讲解如何设计高性能的神经网络结构,使其既满足嵌入式设备的低功耗要求,又满足应用场景下的性能要求。
  3. 分享高性价比的神经网络,在计算机视觉领域的应用,包括实时的物体检测,语义分割等。
  4. 地平线 2019 年最全的校招政策解读。

算法+硬件在计算机应用上的一些成果

我们公司的技术团队实力雄厚,除了国内的各大厂之外,同时也有来自如 Facebook、华为、高通等国际知名企业的成员。目前,我们的业务横跨「软+硬,端+云」领域,后续会持续深耕嵌入式人工智能。

我们在一些公开数据集上测试了这个模型的性能,主要有两个数据集,一个是 Cityscapes,它是语义分割数据集,图像分辨率很大,原始图像分辨率为 2048x1024,标注有 19 类。在这些数据集上,我们的网络跟旷世最新的一篇论文 BiSeNet 做比较——BiSeNet 是目前能够找到的在语义分割领域中速度最快的一个方法,它的计算在右边的表格中,其中的计算模型*Xception39 在 640x320 的分辨率,大概需要 2.9G 的计算量,而我们的一个小模型在同等规模的输入下,达到几乎一样的效果,只需要 0.55G 的计算量。

版权声明:本文由新金沙平台唯一官网发布于互联网,转载请注明出处:廉价版最难抢,芯片上视觉任务的神经网络设计