行业新闻 (News) 芯片封装主页/ 行业新闻 / AI算法与芯片
< 返回列表

AI算法与芯片

 主持人:尊敬的各位来宾、各位专家、各位老师、同学,大家下午好!我是清华大学电子工程系的汪玉,今天下午非常荣幸主持我们的第七个论坛,AI的算法和芯片,今天非常高兴下午有七位来自不同的学校、机构、公司的同事来分享他们在算法,针对驾驶类的算法和芯片类的工作,我自己也是非常期待。我们就不多说了,开始下午的报告。第一个报告是我们的英伟达人工智能自动驾驶总监董方亮董总,我们有请董总给我们做精彩的报告,大家欢迎。

    董方亮:首先特别感谢主办方,我看到底下有很多熟悉的面孔,比如说汪老师、马老师,我看都是业界真正大咖,像汪老师、马老师他们在人工智能,包括芯片,包括算法领域他们的积累是特别的资深,所以今天我是代表英伟达在这里跟大家分享一下英伟达在汽车自动驾驶相关方面的进展。这里面的一些技术和产品,还有一些我们的想法会融入包括算法、芯片的公司的看法,还有公司的一些技术,所以在这里也是很高兴跟大家做一个分享。

    今天演讲主题讲智能驾驶在汽车方面的一个探讨。首先跟大家简单介绍一下英伟达这个公司,我们聚焦在GPU、图形计算,还有人工智能方面的公司。一般来说聚焦的公司有一个特点,聚焦的公司一般有技术和产品的情节,技术和产品的情节我们是很看好未来,技术你要看前方,技术要看未来,未来的一个发展的方向是什么?我们其实跟很多业内的专家、同仁有一个非常近似或者相同的理念和信仰,这个信仰就是以后的汽车或者说在路上,在指定的园区道路上能够移动的,我们都认为他能做到智能化,能够自动驾驶。包括我们今天的乘用车、商用车、特殊用途车,他可以在哪一些领域去落地呢?比如说私家车,比如说共享出行,比如说一些卡车,或者像物流配送车、拖拉机、特种车辆,比如说矿山的车辆,这是我们的前期觉得自动驾驶、智能驾驶会带给交通以及汽车行业的未来和变革。

    同时我们觉得像这样一个未来的场景,他应该不是一蹴而就就形成的,他一定是逐步分场景、分技术落实,我们也很有信心这个能把我们的技术、产品带给我们的广大的合作伙伴,一起推动这个产业往前发展。

    我们也可以看到其实当有这种技术情节的公司去考虑市场的时候,他往往还会做一些其他方面的准备和一些思考。我们的思考是什么呢?首先我们觉得真正智能驾驶、自动驾驶到来的时候,我们认为他其实把他如果分成三个比较突出需要去解决的问题或者是挑战,分成三个方向。第一个我们认为他需要强大的计算和处理器,为什么我们讲强大的计算和处理器呢?

    我们从几个方面去考虑。第一个方面我们认为智能驾驶的汽车首先你需要在感知的层面,首先你要感知做的好,感知做的好需要对能够对多传感器融合的时候,要让传感器精确的把这种物理世界的东西反馈给车的计算平台,让他去做数据计算的处理,这是第一个。第二、因为传感器的融合必将带来什么?因为传感器的增加,你要保证车的安全,你对计算的需求是天然的增加的过程,所以我们第一种认为在计算方面他需要一个强大的处理器和计算平台。

    第二个方面,我们确实要佩服人自己,我们人用眼睛开车,大家可以想想这个人真的很厉害,你要交给汽车,这么多的传感器要是上来的话,你要有一个好的计算平台,带来的第二个问题是什么?这个计算平台他的功耗,包括他的整个的成本不能过高,为什么这么讲?真正到以后商业化,包括到未来的时候,你一定要控制计算平台的功耗,因为他不能带来太大的功耗,对车不能是一个泰达的负担,这是第二个。

    第三个方面,基于智能驾驶的汽车,首先需要满足的除了功能之外,一定是安全,怎么做到车辆的安全有一个很重要的要去做测试,还有我们叫做验证。测试和验证的过程也是真正开发智能汽车需要去考虑的挑战。

    在这三个挑战的前提之下,我们自己有一套自己的方法论,我们今天也把这个方法论在这里跟大家再次分享一下,我们认为在智能驾驶方面英伟达在四个方面做了以下的准备。

    第一、我们把人工智能带入到智能驾驶的领域,首先在这里强调一点,人工智能现在在行业内有非常广泛的应用,而且人才的积累越来越多。人工智能他作为智能驾驶的一部分,他不是全部,但是人工智能他会在智能驾驶当中起到很重要的作用,所以我们把人工智能放到智能驾驶的第一个部分。

    第二、我们说统一的架构,所谓的统一的架构是指的什么?也就是说统一的架构是说我们的车载计算平台,他采用了统一的架构,这样带来的好处第一我们只需要不断的升级、扩展现有的算力,而基础的架构对现有算法、现有的库的支持要做到无缝升级,这是我们的一个初衷。为什么要做到这样?做到这样有几个好处。第一个好处,当现在的开发者去做相应开发的时候,他老的算法,他一些工程方面的积累,他可以同步的升级过来,他不需要重新移植花费非常大的精力,我想在这个层面这应该是业内的共识,不止是我们公司,还有其他的一些公司估计也是在做相同的努力,但是我们公司也会把他放到智能驾驶里面非常重要的一个方面,所以一会儿我会跟大家简单再分享一下我们在一体化平台上面的一些产品。

    第三、我们叫做端到端的系统,是指我们把智能驾驶分成前端和后端,我们说车载端到云端,车载端到云端的过程我们的流程是一个整个的闭环的流程,这个闭环的流程也是支撑了我们公司现有的研发、开发和技术往前进步。

    第四、我们认为开放平台,关键的字确实两个,一个是开放,一个是平台。什么叫做平台?平台是你有一个非常好的硬件的平台,你这个硬件平台上你的库、软件以及基本算法,你对开发者合作伙伴友好型的支持,你要做好才叫做平台。开放是你这个平台要包容,要能够让很多公司把自己的算法或者他们的贡献,他们的积累都能放到这个平台上,所以今天也可以跟大家在这里简单汇报一下,我们公司现在在全球有370家以上的合作伙伴,他覆盖了很多的领域,包括像OEM、主机厂、TL1、算法公司、高精度地图,甚至包括一些重要的大学、研究机构等这样的合作伙伴,这是我们的在智能驾驶方面我们自己做的一些努力。

    接着刚才的话题,我们说第一个把人工智能引进来,人工智能引进来并不是说我们自己凭空想象的把人工智能引进智能驾驶,其实我们要是从一个更细分或者更具体的领域,我们可以看一下其实人工智能他对GPU的算力,包括GPU本身产品的需求他是属于一个非常迅猛的需求的增长,我们可以在这边有一个图,左边的图我们可以看到基于GPU的计算是一个线性上升的过程,他是远高于通用类,我们叫做CPU类的计算,当然这不是说CPU不重要,而是在加速运行、并行运算等等GPU起到了非常重要的作用,说明了什么?第一说明了大家认可,第二说明广大的用户、广大的开发者和行业合作伙伴都在这样的使用,所以我们也相信这是一个能够服务好大家,让整个行业受益的过程。

    第二、简单对比了现有的GPU的架构,GPU以并行计算为主,可以看到上面基于我们的盒采用并行计算的方式,包括并行能力比较强的一个比较直观的体现。

    第三、我们在说使用大量的数据训练做AI的时候,他能够带来智能驾驶方面的一些功能的实现和一些突破。

    在这个里面跟大家可以简单的分享一下,我们看到这个真的是智能驾驶上路了,大家想想自己开车真的很不容易,对车来讲真的遇到这么多场景,每个场景如果用人工智能,如果用算法以及传统的算法,我们要面对的东西是蛮多的,包括不一样的道路,人、车不同的场景,所以这是需要很多的东西都要去做数据的训练。

    看一下我们开车的时候,我们不管站在驾驶位还是副驾驶看到是这样的场景,这是人看的,这是机器看的,机器看的真的不一样,首先要把可行驶区域分出来,把车道分出来,这是有车道线的,还有非车道线的,基于算法看算法,实现什么样的功能?因为在换道策略上会有不同,要区分一下哪一些是静止物体、固定物体,还有哪一些是地标,有助于做定位的识别,哪一些会对驾驶行为移动的物体,运动方向怎么样,对驾驶形成的阻碍,还有哪一些不会?还有指示牌,比如说速度、安全的提示,所以这是一个机器看的时候真的是很复杂。我们可以理解这里面甬道人工智能是非常合理的。

    在这一页PPT是跟大家简单的汇报一下英伟达在自动驾驶方面的软件简单的模型。左边是我们说在感知方面的一些网络,本身在这里跟大家简单分享一下,我们本身在DNN方面有很多网络去识别,这边简单说一下比如说有物体识别、可行驶区域,包括路边道路、路沿线,包括距离的识别,当然包括其实是比较多方面的,包括对路灯以及其他行人都是有相应的DNN去做检测,所以我们把这些不同的检测网络再一起做交叉验证,形成一个可靠性、稳定性以及准确性比较高的感知的模块。

    右边是在讲我们的基于高清定位方面的一些合作,我们可以看到右边这四个百度、HERE等等,实时的把他们的高清度地图导入到现有的平台的效果,这个效果我相信有在座的各位如果去过今年美国CES在拉斯维加斯可以看到我们当时在演示的真实情况,这些全部是真实的路况,全部是真实的路况去做的,所以我们也是很高兴能跟这么多的合作伙伴在一起,得到他们的信任,把他们的地图跟我们的车载计算平台和我们的系统融合在一起。

    这一页跟大家稍微汇报一下我们的软件,这是我们软件整个的系统,我们在这个软件系统方面做的一些,包括硬件底层硬件系统,这是我们一个大的框架推。底层是我们的硬件车载平台和上面之上是由我们的OS,是英伟达自己研发的OS,他有两个版本,我们不同的模块做的,对传感器做管理,去做传感器同步融合的一些模块,中间层模块,上面是我们的应用算法的模块,同时还有一些感知这些模块都在上面做。

    除此之外,我在这里可以跟大家简单提一下,我们除了在所谓的智能驾驶,除了在本身车辆行驶方面的智能驾驶做了一些开发和产品之外,其实我们在车内的智能也是做了相应的工作,像我们的AI主要是从我们叫做AI的角度去看一下车的智能的情况,还有主要是跟驾驶员的互动上面做了开发。他保证的第一个保证了车内的交互,把车内的空间变成了车和驾驶人员,包括车内人员的智能的交互,提高了用户的黏度和互动。第二还有一个重要方面,车内做了大量的工作,他去用车内的摄像头去看开车的司机驾驶员是否在开车的时候有一些不当的驾驶行为或者当他疲劳,或者当他被分神的时候有一个提醒让他专注于安全的驾驶,这是我们在智能驾驶方面的努力,他都为了更好的驾驶的体验。

    最左边的这张图是我们最新一代的平台,这个平台他是基于我们自己的RIM的CPU加上我们的GPU,以及基于加速库,还有包括其他的算法、图形库的片上系统,这个系统正在应用在我们最新一代的车载计算平台,他提供给开发者。

    这一页稍微清楚一点,刚才回顾第二个说到的叫做统一架构,统一架构是说基于我们的本身的平台有几款产品,基于这个做的量产的版本,第二个是也可以做量产,也有我们现在的对开发者的开发平台,他主要是做开发用。第三个是Pegasus,今天是5月30号,明天他正式可以发布出来,可以交付到用户,明天是正式可以发布给用户的,他的区别在于SOC是两个Xavier,是一样的,他的性能是比较高,他能达到320个T,可以想像一下他的计算性能是非常高的。大家说这么大的一个能不能用得上呢?真能用得上,比如说现在在全球推他的无人驾驶的项目的时候,他就是用到了我们Pegasus平台做车载计算平台。

    最右边稍微有一点不清楚,这是我们下一代的平台,我们起的名字叫做Orin,这个平台还没有出来,所以给大家做一个简单的汇报。

    这一页跟大家简单交流一下我们端到端的系统,端到端的系统他是结合了我们的方法论和我们的产品,构建了我们自动驾驶的平台,从最左边数据的采集,包括了第一个要把车弄好,整个装好,把相应的传感器都搭建好,去做这种数据的采集,之后回来做数据的清洗,再做达标。第二步放到训练,云端训练我们底下的服务器集群图片用到了我们现在发布的产品,叫做DGS,他把GPU用我们独家的技术放到比较小的机箱里面,第一可以保证占地很小,第二、相应的功耗会更低,叫做云端训练。云端训练完了之后,第三步我们说叫做做模拟仿真,我们其实也有相关的产品,中文的名字应该叫做星座,我们一直用英文这个名字,一会儿会跟大家做一个简单的分享。第四个是相当于我们前三步做完了,我们把我们的AV的算法,除了在真实路侧去跑,我们也会放在仿真平台,这样同步和扩展升级做验证,这样保证了我们的算法安全可靠,技术可达。这是一个简单的对端到端系统的介绍。

    在这页的PPT里面,主要是跟大家分享一下在基于安全的验证方面,我们可以想象到的一些挑战。

    第一、车载的系统,因为把传感器也装上了,你的车载系统,包括硬件系统,包括上面的软件,其实是一个相当复杂的系统,很多业内的专家,他们应该是深有体会,尤其是一线开发人员对这个体会是比较深的。

    第二、你怎么样去真正的把这种场景,场景覆盖的要全,把这种极端的情况要考虑进去,这是一个非常难的过程。

    第三、你这种测试和验证需要不断的交互的过程,而且这个交互的过程要闭环,这样才能做出高效、有效的验证和测试。

    在这个里面简单总结一下我们说在验证过程当中我们的一些体会或者是我们的一些想法。

    第一、基于端到端系统的验证。第二、验证第一要能够扩展,第二个要有一定的规模。第三、极端的像不同的车况、路况的最合,一定是一个数据导向、数据驱动的过程。第五、整个的验证过程一定能够重复,最重要的他要能够做可生产、可重复。

    这一页主要是在讲我们的星座系统,我们叫做星座,我们基于仿真的系统。这一页讲的更清楚,仿真系统分成两块,一个是SIM,他是基于传感器、车辆、虚拟场景的构架。右边是AV,把真正的算法跑在虚拟器里面,分成两个部分。

    最后一个跟大家简单分享一下,我们在GDC上宣布的SFF,这个是英伟达在基于安全方面的一个自己的方法论,这个方法论可以跟大家简单一下我们的基本理念,他的基本理念是智能车在路上的时候第一保证智能车自己一定要遵守规则,如果发生碰撞,起码有一方一定是没有遵守规则,这是一个最基本的理念。SSF他不是一个模糊的理论,他是用严谨数学公式表达在时域和空域通过数学表达来看里两个智能体有碰撞风险的时候,他的几率有多高,所以SSF在自动驾驶方面是我们的一个方法论。

    这个是基于L2产品的发布。最后又回到刚才的PPT,我们现在真的是有非常多的全球的合作伙伴,同时在这里我们也特别感谢我们中国的合作伙伴,就是我们在各个领域主机厂、出行服务,包括高校等等领域,我们有非常多的合作伙伴,也得到了合作伙伴的信任,在这边代表英伟达向我们广大合作伙伴表示感谢,今天的分享就到此结束了及谢谢大家。

    主持人:我们还有一点点时间,不知道在座的同志们有没有问题?比如说英伟达的价格能不能再便宜一点也可以?大家有问题吗?

    提问:真的是英伟达是我们的靠山,是我们支撑我们算法研究的很多我们的平台,我想问一下,今天我看到你们仿真的系统现在发布出来,那个仿真系统你们是基于什么原型做的?涵盖哪一些比如说场景、气象情况,包括车辆的类型等等,这些能给介绍一下慢?

    董方亮:特别感谢马老师对我们一直以来的支持,在这边同步回答马老师的问题,跟大家稍微详细讲一点仿真的系统。其实我们仿真的系统,大家刚才看到的底下的两个专有的服务器,在这个之上我们自己也做了大的架构,一个是我们的仿真完全基于我们的前端后端的QA系统,保证了验证。第二、我们仿真系统他也会结合我们的合作伙伴的一些API进来,达到了在车流、环境模型、场景库,还有包括车身动力学的一些方面也都可以放进来,现在中国在逐步的开放,跟我们的合作伙伴也在探讨这样的一个过程。我们希望把他打造成一个开放的平台,但是能够真正帮助我们的合作伙伴去做仿真方面的验证,这是我们的初衷。下次可以再去拜访马老师的时候再跟您详细讨论一下,谢谢。

    主持人:我们再次感谢董总,下面一位主讲人是来自国防科技大学智能科学学院研究所所长徐昕教授,我们有请徐老师。

    徐昕:非常荣幸有这样的机会跟大家分享一下我们在智能驾驶系统的机器学习算法的设计和实验验证以及研究方面的思考和进展,因为我们讲到人工智能和我们的算法芯片设计很大一块是这样的,如何实现我们机器能够自动的获取知识,所以我的报告分五个方面。首先跟大家分析一下智能驾驶系统未来的发展需求。

    智能驾驶系统终极目标要实现各种复杂环境下自主驾驶还是面临很大的挑战,包括对环境识别方面,特别是我们现在也很关注他的决策能力,包括车辆的优化控制等等。大家现在很多的厂商,包括研究机构现在很多也是停留在L3,有的像L4迈进,真正的L5完全自主还有很多困难的问题。其中的发展趋势,我们怎么能够实现机器的知识的自动获取,利用我们的大数据或者各种数据驱动的方法来研究机器学习在我们智能驾驶系统当中广泛的应用。

    这里面实际上智能驾驶系统我觉得他的发展类似于人类驾驶员的经验的不断的积累以及技能学习的过程,这里面涉及到这样的经验的长期积累和经验的学习。其中一个方面就是我们除了从感知层面之外,一个重要的就是他的自助行为的决策,因为我们在驾驶过程当中,包括我们在会车、变道,实现一些跟其他的交通元素进行交互的时候,我们都有许多自主的决策问题,这里面决策规则有可能会是增量的不断的动态变化,而且也会涉及到冲突的消解,同时我能不能利用驾驶的经验优化决策性能,因为一个好的决策性能对于安全性、快速性也是非常重要的。

    第二个方面,我们对意外实践的识别、评估和响应处理,意外实践会出现我们学习的推广能力,还有小样本、在线学习的问题,在历史积累的经验和数据不能很好的覆盖,我们能不能能够实现对一些异常发生的事故和事件的快速的响应、评估和快速的处理。

    同时车辆本身也有复杂的特性,本身的操控依赖于人的驾驶员的很多的经验,这种情况下涉及到我们对车辆复杂动力学系统,包括车路关系、轮地关系各种不确定优化的运动规划和控制,实际上从我们的控制科学来说,他也是一个挑战性的难点问题,我们的一些紧急避障等等,对我们的运动规划和我们的优化控制都提出了很多新的问题,因为这里面我们很难建立一个比较精确的模型,有很多的关系都有很多不确定性,我们能不能用一些数据驱动的方法以及机器学习的方法来学习操控层面方面的优化运动规划和控制的能力。

    从整个智能的角度,实际上我们还是希望提出我们的智能驾驶系统具有这种能力,我们智能驾驶的决策、规则,包括感知层面的目标识别、理解,他具有这样的长期的智能发育的自主学习的能力。

    除了有监督条件下的标记样本的学习之外,可能会有一种今后会具备不确定的环境交互当中的自我学习,这里面其中的一类叫做强化性学习,现在在一些人工智能的挑战领域,包括阿尔法狗,下围棋的决策当中也取得了很大的成功,接下来在智能驾驶的过程当中能不能应用这样的方法来解决优化决策问题。

    第二个方面,给大家谈一谈复杂场景感知的机器学习,因为这块其实也很热,这里我们也不一定作为重点,这里面深度学习用的很多,我们重点简单介绍一下我们的探索,因为深度学习方法他的深度神经网络比如说对交通标志识别这个问题来说,大家用了很多不同的深度网络结构进行训练,这里面他对网络的训练,我们的探索实际上引入了深度网络、超对学习以及新的学习机制的交通标志的识别算法。我们的工作也发表在智能交通会刊这样的杂志。

    主要的出发点,一是针对经典的深度卷积网络存在的不足,我们在输出的分类期学习方面更多的是采用了超限学习机的思想,固定神经元堆积而成的学习算法,保证全局最优的。

    整个的思想,我们一个思路探索集成深度卷积神经网络的强大特征学习能力和集成式的两阶段的深度学习的方法,这个方法前端我们还是用深度卷积网络做提取。

    同时在分类层面,我们采用了创新学习机的快速分类的方法,就像人类神经元的能力,输出层我们可以采用快速的线性的学习算法来获得一个稳定的优化节。

    针对德国交通标志识别数据库的测试,我们的方法训练代价比较小的情况下,也获得了非常高的正确识别率,当时在2017年我们还是排名前两名,特别训练速度优于其他的深度神经网络的一些方法。

    产品感知还有很多其他的可值得我们进一步的探索,特别是这里面的可解释性等等,我们更多的关注强化学习,他的理论框架是什么?怎么来解决我们的优化决策和控制。

    因为从机器学习的分类来说,我们可以看出分为有监督的学习、无监督学习和强化学习三大方面,有监督依赖于我们对样本人工的标记,包括我们类似的一些仿人行为的分析。有一些情况下我们可以采用无监督的学习方法,不需要监督信息,我们直接对X进行自己组织等等。强化学习他的框架更多的是强调一个外部的评价的反馈,我们的奖惩好坏的评价能不能我们的学习系统,我们人类的很多的学习过程也是采用这种奖惩式的自我评价的学习。

    他的基本的框架我们可以看出他强调在不确定的环境交互中自我的学习,而且通常他还是有一套比较严格的理论框架。

    这个决策过程,MDP在他的状态空间,对于我们的自主驾驶汽车来说更多的面临一个连续的状态空间,包括是高位,以及行为动作集,以及他的一些评价信号。

    我们的学习目标可能是针对无线长期的总的回报目标,比如说对整个驾驶性能的评价,学习目标学习这样的动作行为,能够优化我们的长期性的信任指标的行为。

    他的基本模型描述也涉及到一个是值函数,评价了我们当前策略的获得未来的长期的性能的估计,同时也可以行为值函数,并且满足方程的地位关系。

    目前的算法框架,我们可以看出大的一些探索,一个是基于值的RL,我们怎么来学习刚才说的评价函数,根据这个评价函数,我们可以有效的不断的更新我们的策略。比如说Q学习,采用深度网络的Q学习,还有策略空间学习。

    另外一个算法叫做策略迭代,是这两个方法有效的组合,既学习我们的值函数,同时对我们的策略进行有效的逼近,这两者之间可以相互促进。同时我们也可以发展相应的在线算法,比如说执行器评价学习,结合了值函数和空间学习的学习算法。

    前面就是给大家介绍强化学习的算法的框架,围绕智能驾驶系统,强制学习算法具备什么样的性能?比如说能不能实现高效的特征表示?因为我们面临的智能驾驶的系统传感器的输入往往是高维的空间。同时我们来提高他的学习效率,有时候训练样本有多少对我们的智能驾驶系统能够获得有效的决策也是非常重要的,同时又时候我们还要关注他的在线学习和回报函数的学习等等。

    第一个方面关注的问题就是关于强化学习的特征表示问题,因为现在从机器学习的角度,我们经常要把高纬的传感器输入变成本真的的空间,目标简化我们的计算,提高学习效率,还有学习系统推广到类似的空间,实现某种程度上的迁移,因为很多的迁移学习现在提的比较多的很多都是在特征层面,我们能不能学习到问题的本质特征,而不是简单的把样本的冗余的信息都记下来,这样反而会影响我们的推广能力。所以我们的特征提取方法也涉及到比如说用深度网络,包括流行的方法。

    我们一部分工作,核方法在机器学习里面得到了成功的应用,比如说在分类里面得到了比较好的实际的应用,分类问题是一个有监督学习的问题,在我们强化学习里面,我们还列了对值函数学习的有效的核函数的目标。他能够对应的两个高维非线性空间的特征的累计,同时具有比较强的特征的表示能力,对我们的未知的空间,我们可以很好的对他进行有效的逼近。这里面我们提出了基于核的时域差值学习,因为是无监督条件下的逼近,这里面我们引入基于核函数的替代人工设计的线性及函数。

    这里面为了提高他的泛化能力,我们面临的目标怎么有效的选择基于核的特征,因为我们基于样本点的,他可能数量非常大,我们采用的叫做把样本之间对应的特征向量的,有效的控制我们整个学习系统的结构风险。比如说我们的学习问题希望他的特别在样本比较少的时候,我们不一定用非常大的深度神经网络结构,而要对于本身的结构进行吸收化,同时也减少我们的计算复杂性。

    这里面一个算法,我们是提出基于核的算法,他的思想比较好的应用了我们的基于吸收核的特征表示,对值函数进行有效的快速逼近,在这个基础上可以迭代获得优化的策略,这个过程当中可以实现快速的策略的学习。

    另外,我们也把思想扩展到一个在线的学习控制,我们能不能针对实际的车辆系统在线的不断的同时更新我们的值函数和策略,也采用我们基于系数何的特征表示。包括我们在一些典型的基于核的方法,很好的提高了强化学习的学习性能。    

    第二个事情我们在时间上进行有效的分解,刚才讲到无限的优化指标可能会带来优化的问题,我们能不能研究一种在线的强化学习的方法。实际上对MPC模型预测控制很好的发展,因为他更好的求解于开环的优化解,我们是直接逼近一个闭环的非线性的均优解实现优化目标。

    算法整个的结构采用我们的在线的强化学习的方法来进行滚动的优化我们的最优解,得到随着时间变化的评价函数,对我们值函数的有效逼近,同时根据实际差值的误差,更新我们的值函数的逼近的全值。我们行为网络主要是逼近他的动作,主要是对策略进行在线的滚动时域的优化,同时我们对整个算法的进行了证明,提出了基于学习的预测控制的思想,我们比如说对轮子车辆的路线跟踪进行了一个仿真性能比较,可以看出我们滚动时域的方法能够比较快的优化出高效的跟踪控制的性能,优于其他的MPC方算法等等。

    这也是我们对不同的学习控制器做的性能的比较,也获得了更好的跟踪性能。

    前面就是从两个代表性的角度、方向介绍了强化学习算法的研究进展,比如说一个是对特征的高效表示,同时在线学习的滚动优化的思路,我们下面介绍一下直接面向的设计。比如说前面提到的基于核的算法,我们怎么能实现一个高效的速度的跟踪控制,我们这个方法实际上用自学习方法来有效的调整相应的参数,能够实现各种路面条件下,特别是针对一些越野环境针对的优化实验,相对的控制精度也是优于传统的跟踪控制方法,包括采用神经网络的一些其他的特征表示他的学习控制器,他的性能也不如我们基于核的学习控制的学习性能。跟踪误差也是得到了很好的优化。

    另外一个针对我们的无人车辆的规划与控制,我们利用在线的学习对车辆的测向方向控制进行有效的优化和对他的性能进行不断的在线的更新。比如说我们利用Prescan仿真场景,针对不同的典型道路,也学习相应的车辆控制的优化策略,红色曲线经过优化学习之后,能够获得一个比较好的测向跟踪性能。比如说我们针对不同的车速条件下,我们对车辆跟踪性能进行了优化。这里面第一个MR就是我们多核的规划方法,对相应的车辆的测向跟踪性能的优化学习,这样的对车的测向的运动控制性能的提升,特别是对一些跟踪精度要求比较高,或者车辆又为了实现一些紧急避障或者高精度有需求的时候,我们自学习控制器具有比较大的优势,由于传统的比如说LK2这种方法。

    特别是对一些狭窄的道路情况下,我们的新的学习控制器对于车辆的集中性也是比较有效的。这个也是我们实车做的实验,对一些狭窄通道的快速机动都是比较好的控制优化的能力。

    我们前面讲的是运动控制层面的,对车辆的优化控制的研究,另外我们现在也是大家都面临一个难点,车辆的各种决策问题,比如说包括谷歌都觉得无人车实现无保护的左转都是比较困难,其他的还有其他方向来车的时候,我们怎么进行有效的优化决策。今天早上他看到无人车在测试的时候,感觉不是很好用,无人车见到我们都不敢走,无人车在直行的时候都不知道怎么其他的有人驾驶车辆进行有效的交互和正确的优化决策。我们在研究的时候,也是探索了基于策略迭代的驾驶决策方法,这里面主要是针对车辆变道和超车的一些决策,建立了相应的决策过程模型,同时我们结合车辆的实际动力学也建立了一个仿真研究环境,针对这个车辆本身的一些动态特性,因为我觉得我们的决策实际上跟车本身的动态优化控制车性是密切相关的,不管是你大车、小车是有差别的。

    我们利用前面的强化学习方法,也可以利用样本数据来学得有效的决策经验,保证这些车辆在典型的场景下实现保持车道,包括自动超车等等,这也是我们在计算机仿真情况下模拟,红色的是我们自动驾驶车辆,还有包括蓝色的其他的环境车辆等等,在车流条件下的自动驾驶。

    同时在实车方面也进行了实验,在对他的性能进行了测试,比如说在各种道路条件下,我们检测我们的决策规则是不是有效?比如说变道、超车等等,也进行了一些实时的测试。

    第三个方面的研究,针对我们的人机协同的驾驶问题,目前我们刚才中午跟一些其他的单位老师进行交流,包括我们的汽车产业,大家也在关注全自主智能驾驶汽车完全应用之前,我们很多情况下还是以人类驾驶员为主,人类驾驶的时候,我们智能驾驶系统从如何实现对人机有效的共融。这里面我们跟长春一汽进行了有效的合作,同时也研究我们仍然对驾驶策略的优化学习方法。

    其中的一个工作,机器向人学,比如说好的人类驾驶员的经验,能不能采用深度学习的方法实现智能车的仿人的学习控制。这里面我们也是涉及到相应的仿真学习的,特别是对车向控制的决策的框架,主要是利用人类驾驶员的经验数据来进行深度的单对单的学习的迭代。

    这里面我们在学习算法设计上面,我们也进一步的采用了新的机器学习的架构,同时保证很好的多层的端对端的实现快速回归的驾驶行为的学习。

    输出我们人类驾驶员在不同条件下的方向盘的转角,同时针对典型的测向驾驶的数据库,包括百度的数据库对于我们的机器学习的算法的性能进行了评价,他的误差还是相对比较小的。同时我们对于他本身的特征体的可解释性也进行了研究,因为大家觉得端对端的驾驶侧对可靠性还是产生一些疑问,当时我们分析了深度神经网络不同层的特征图,包括在道路条件下反映的与驾驶相关的一些重要的特征。我们也对他的相应的特征图进行了可视化的输出,也是反映了网络模型能够自动提取与驾驶行为相关的重要的分层的图样特征信号。

    基于此,我们也能够学习人类驾驶员的方向盘的驾驶控制策略的性能,最终能够使得网络模型能够学习获得类似人类的超车换道和车道保持的行为,这是端对端的学习控制。

    另外一个工作,我们把深度的强化学习引用在人机协同控制上面,有的驾驶员可能会出现注意力分散或者是驾驶精力不足的时候,可能会出现一些误操作,在这种情况下我们智能车首先采用深度强化学习方法能不能学到自动避让行人的优化策略,对此进行深度的强化学习的训练。在这个过程当中我们也是模拟一些典型的行人穿越马路等等,获得一些优化的避让侧。我们设计相应的动态的切换条件,人类驾驶员出现误操作的时候,我们智能驾驶系统进行有效的避让和干预。相当于甚至有一些情况下,我们可能要实现切换,也是针对我们对人类可能会出现安全驾驶行为的时候实现的紧急的人机协同的驾驶。

    前面的工作一个是给大家分析了强化学习也是我们智能驾驶戏弄在复杂动态环境当中实现自主学习的关键理论和技术,今后我们要进一步关注大规模空间,包括快速的在线学习等等一系列的困难问题,同时我们仿真场景,特别是我们平行智能的框架,仿真跟实际车辆的有效的驾驶环境的有效的互补,同时这两个环境当中进行优化,不管是感知、决策、到控制层面的重要的技术框架。

    从机器学习方面,我们研究新的特征表示和学习,时间与空间的分解的作用。未来我们还是要进一步完善相应的特征表示理论的方法以及智能驾驶系统的快速深度强化学习,以及怎么有效的资总的学习相应的回报函数,比如说更好的设计回报函数,同时进一步解决挑战性的车辆的优化决策和控制问题。

    进一步还包括我们的迁移强的学习,同时通过人机高效的学习来解决挑战性的问题,以上是我汇报的内容,谢谢大家。

    主持人:各位有什么问题吗?

    提问:我想问您一下你们强化学习的函数是怎么设置的?第二你们的终止状态是怎么评估的?第三个问题你们在实车测试的时候,你们终止状态是怎么评估的?因为一般最简单的想法是车撞了才是一个终止状态,在模拟的时候很容易实现,但是在实车测试的时候这些数据你是怎么获得的。

    徐昕:刚才讲的在道路的决策里面,我们主要是考虑三个方面,一个是安全性的指标,比如说涉及到安全距离,包括碰撞的预测条件,给出一个评价。同时我们也加全了相应的对快速性的评价,你不能为了安全故意保守,这里面我们也用了读目标的学习方法,也可以用多目标策略进行分解学习,再进行相当于侧的组合,因为有时候我们还要进行切换,我们在适当的考虑一些快速性的需求,这个实际上是多目标的优化设计,目前我们更多的是结合我们其他的一些领域的知识来设计的规则,当然我刚才也提到未来来说,我们可以根据人类的驾驶的自动的来学习回报的函数,因为这里面也涉及到强化学习的问题,这也是发展方向。

    第二个、提到的终止状态,我们在仿真的时候都没有一定要到一个碰撞才作为一个终止状态,我们在仿真的时候也引入了安全距离的限制,比如说结合动力学的特性,因为我们现在的智能驾驶决策系统本身有一套对于安全性的紧急条件的判断,很多情况下都会提前刹车或者提前作为行为终止的条件,所以说也不一定非要等到碰撞才作为一个终止条件。我们在运动规划算法当中,现在没用机器学习的,我们人工设计的运动规划算法都有一个安全通道,都有安全通道的范围,这些都可以用来作为终端状态的设定,所以对设车测试,学完了再做实车,一般到了安全区域的边缘都很少,而且也不会出现碰撞的情况。一般是这样的。

    提问:我其实还有一个问题,因为RL还是一个数据的收敛效率或者数据利用率不是那么高的算法,到实车的时候会有一个比较难迁移的问题,这两个问题您是怎么看的?

    徐昕:数据利用率不高,我们也是从几个层面在解决,一个是我们前面提到的几个算法,我们在特征有效的提取方面,包括本真特征的压缩方面得到了创新以后,对数据利用率提升还是比较明显的,比如说传统的Q学算法可能有一千次,现在的算法可能有十几次,提升大概100倍,有效的特征提取可以解决我们的效率。这是一个方面。

    另外一个方面,国内有一些专家,一起在做,从基因模型更加叫做支持动态规划,动态共话里面有了模型,我们更高的提高求解效率。你说的迁移问题,一个是我们要把仿真做的更好,包括我们能不能虚拟跟真实场景能够很好的融合起来,做的更加小一点,我们车辆仿真确实挺困难,我们在座的有很多车辆仿真,包括英伟达这块,车辆的因为涉及到的环境比较复杂,车本身可能相对容易,车跟环境之间仿真一个是做的更好,同时机器学习本身也涉及到迁移强化学习的,包括从特征表示,算法模型本身的方面。

    主持人:再次感谢徐老师给我们带来的精彩报告,下面有请郭彦东老师带来精彩分享。有请郭老师。

    郭彦东:大家好,我是来自小鹏的郭彦东,很多干货非常学术,我觉得来自工业界、企业的同学们一定非常希望,也乐于听到这样的介绍,能学到很多的东西。下面从企业的角度来讲一讲我们在企业内部,在人工智能方面的创新,以及如何通过这些创新提升中国式的驾乘体验。

    我们如果把整个IT时代作为一个简单的梳理,我们划分了几个时代和王朝,当然每一个时代和王朝都有自己代表的公司和品牌,最开始的IBM以及我们国家的联想开始,我们的硬件时代,随后硬件和软件做结合,出来了微软。后来有了PC互联网出来了谷歌、阿里巴巴这样的公司,后来到了移动互联网的时代,包括我们的小米苹果都是这个时代的代表人物。第五个王朝我们讲的是AI赋能互联网跟硬件结合的时代,这样的时代会有怎么样的企业和现象发生呢?

    我们来看上一次移动互联网变革,从功能机到智能机的迭代,我们回忆一下其实在不久的几年前,甚至不到十年前,我们的手机主要的功能就是打电话,我们的诉求对这样的机器的诉求续航时间长,电池要能换,信号要好,后来到了iphone,打电话的核心诉求没有变,但同时如果大家做一个简单的功能,把这个功能打开,电量、流量都去哪里了?会发现iphone拍照花的电量占的比例都非常高,这个也有争议,不得不承认的智能手机取得了很多专业相机的功能,越来越多的人更愿意用手机去拍,我越来越少的出差带一个大的相机出去,因为我发现我们的苹果、华为手机拍出来的效果挺不错的。包括现在用越来越多的手机进行通讯等等工作事项的处理,我们功能机到智能机的演进,我们强调的是说他承载的功能越来越多,他能够给人提供的服务越来越多,越来越智能。

    另外一点,我们想说的从功能到智能演进过程,不仅仅是功能的增加和迭代,也带来了交互方式的改变。功能很代表的一个品牌,我们都有按键,以前曾经一度说按键按的挺爽的,我不喜欢触摸屏,但是现在很少有人再继续用功能实体键的手机,大家更喜欢触摸屏和语音的方式,因为触摸屏的键可以随着你的应用更新迭代,你的交互方式在不同的环境下是不同的。通过这样的功能类比,所以我们说以前我们有功能汽车,我们不管采用传统能源和新能源都有这样的功能汽车,包括小鹏自己的汽车上面几乎所有的汽车都搭载了4G模块以及wifi模块………

    智能汽车跟功能汽车有哪一些不同?我们下面利用这点时间跟大家做一个分享和探讨,也很希望听到大家的一些反馈。

    这里我用一张PPT,一分钟的时间简单介绍一下小鹏汽车,因为我们还是一个比较新的公司,成立2014年,总部在广州,在上海、北京、广州、美国的加州都有研发中心,现在员工大概是4000多人,其中70%作用都是核心的研发人员,我们的企业愿景是通过智能制造创造更美好的出行生活。

    刚才讲了这么多是我们智能汽车搭载的硬件,硬件越来越丰富,我们也做一些类比,在手机行业功能机怎么向智能机转变的,但是在这里稍微给大家把调子往回收一收,分享一下理想照进现实和理想跟现实的对比,屏幕的一侧是我从美国杂志上截取的一张图。 

    这个图是1960年在杂志上发表的,他说通过自动驾驶、车路协同以后再也不会有交通事故,大家不用再开车了,这是美国在70年前的一本杂志就有这样的愿景。图的另外一侧做辅助驾驶的头部企业,他因为不停的希望需要跟司机强调说我们现在做的是辅助驾驶功能,你不能够不注意力关注在路面上,所以他用方向盘扭矩传感器,监测司机是否有分神的行为,但仍然会有用户过度信赖这个会想不刷方向盘了,用户把一个橙子卡到方向盘上面,骗过了车的智能系统。当理想跟现实做对比的时候还是挺鲜明的,我们有几个方面。司机并不能完全的被取代,另外我们的交互方式能不能变的更智能、更聪明,为什么现在我们在量产车上没有能够实现百分之百的全无人的驾驶功能呢?我也举了几个简单的例子,包括我原引的CPU的话,真正重要的是什么呢?每一种事例发生的次数都很少,但是总的类别数又很多,这给我们数据的采集、生成、模型的训练带来了困难,这就是为什么刚才有那么多的嘉宾说我们的仿真平台越来越重要。

    我举了这样的例子,其实在最左边这张图是我在加州拍的一张图,是油罐车,美国天气也不好,那时候加州空气、天气都很好,很多这种计算机的算法就认为前面真的有车,其实前来这些小车是不存在的,真正重要的是油罐车,非常的危险。

    中间这个图是当年特斯拉的例子,是一个大货车,他认为是蓝天白云,当时也是一个惨案。最右边其实是离得近一点的,这是一个人走在了马路上,这也是我在美国拍的一张照片,中西部大家比较无聊,经常穿着奇装异服在街上走,大家也知道不管是行人的避让,道路行人的检测,在无人驾驶也好,自动驾驶也好,里面都是最核心的模块,如果没有推广性和自学习的能力其实是很危险的。

    这里可能例子更多一点,是一些非常有中国特色的场景,我们也是说为什么直接使用国外的技术在中国的场景是不能够完全适合的,为什么其实我们想说这种智能化的学习,机器的学习其实学的不仅仅是一些客观规律,学的也是当地的法规、文化、人文和自然环境。我们举一下例子,包括一些特殊天气、能见度很低的天气的适应,包括我在图像的举了两个例子,一个是在北京拍的,一个是在另外一个地方拍的,在北京出租车的距离又是这样的,你会有不同的角度、不同方位的车插进来,视角就有更改和不同。包括在中国仍会有大量人车混流的现象,语言首先肯定是不同,路牌的指向都有我们国家自己的特色。

    这张图大家看的非常多了,其实是美国的ICE协会所提出的自动驾驶的分级方式,从0到5,我这里不花时间做非常细节的介绍了,我们做一个很粗的分类,从0到3分成一类,包括3以下分成一类,认为他是辅助驾驶,认为在这个条件下人是需要接管车辆的,不管是全程接管,还是在紧急情况发生的时候,人是主体,所以在4和5两个阶段,我们认为高度自动驾驶和完全自动驾驶,在个方面没有方向盘,车是驾驶的主体,对驾驶行为负责。

    通过上面的讨论,我们不难看出来目前这个阶段,不管是整车厂,还是提供乘用车的公司都集中在0到3的范围来做,他的核心提升驾驶体验,因为车的核心是驾驶员都在车里面。我们说点对点的运输,或者在码头的限定场景,我们认为说可以做这类的驾驶,这里面可以实现非常昂贵的传感器,我们把他叫做下半场,因为司机其实是机器人本身,所有在车里面的人我们都认为是乘客。我们小鹏的核心是整车厂,怎么通过人工智能提升驾驶体验,我们也分了四个场景跟大家做一个探讨和学习。

    我们把他整个车的使用场景分了行车、泊车、助车和运营四大场景,在四个场景里面我们分别用了怎样的智能化的手段?第一个车核心还是给人去开的,我在这边举了几个例子,在行车场景当中我们搭载了车内、车外的多款摄像头,我们通过这样的摄像头达到人和车的相互理解,车能够知道人的健康状态,我们甚至采用摄像头能够非常准确的捕捉到驾驶员的心跳,从而得知到驾驶员的健康的状态。除此之外,我们仍然还是采用传感器的技术,让车更好的理解环境,我们知道环境当中的天气、光照情况,道路情况以及驾驶的其他车辆的情况,我们从而规避一些碰撞行为。

    这里举了一个我们自己做的驾驶员分神疲劳的模型,我们也做了很充分的测试,发现我们的这样的模型在业界不管是学术界,还是工业界都属于领先的水平,我们也非常愿意跟学术界做各种各样的交流,我们把这样的技术和产品这样的思路也在今年2019年法国举行的会议上做了一个宣传,使得更多的公司能够跟更多的产业,企业也好,学校也好互相学习。

    除了刚才的行车场景当中的车跟人的相互理解,我们还强调在行车场景当中有人和车的交互场景,这个场景我举了几个例子,在小鹏汽车,不管是现在已经上市的还是即将上市的,我们搭载了语音的功能,包括我们的手势识别,包括智能导航等等,通过这种智能化的赋能,提升车跟人的交互体验。在交互的过程当中,更多的是车去理解人的状态,在感知的过程当中,更多的是车理解到人的状态,从而做一些相应的动作。

    这里第三个方面是在行车场景当中的主动交互部分,这一部分刚才是人给出一些指令,现在我们想说通过非常充沛的理解,不管是对司机的状态的感知,以及大数据的运营,车可一给人推送一些主动的功能,不一定人给车下发指令,车可以介绍一些你感兴趣的人和地点,比如说每天都开车到固定的地点,车可能知道你将会去这个地方去,不一定司机通过导航告诉车去哪里,车可以自己告诉你今天是不是去哪里?或者一些特殊事件的提醒,当我们有了运营的数据,有了司机健全的数据,我们可以猜到是不是买一个礼物送给谁,今天是他的生日等等,更多的是一个伴侣的感觉给到用户。

    除了刚才最核心的行车场景,在泊车场景我们通过多传感器融合的技术,我们小鹏汽车可以实现有线框和无线框的平行。

    这里是一个示意图,下面给大家看一个视频。

    (VCR)

    郭彦东:现在这款车好像还有优惠,刚才讲了两个车动的车景,行车、泊车的场景,下面跟大家聊一聊助车场景的智能化,我们也做了一个很小的生态,包括我们引入了游戏的功能,包括小说的功能在车里面,因为我们也做了数据的分析,很多人停好车以后在车里面待一小会儿再回到家,另外一个事情,我们当用户开完车以后,再下一次上车的时候,我们也是业界属于第一批量产车能够把人脸识别、用户登录做到车里面去,通过人脸识别,我们能够自动的激活我们的小鹏汽车的系统,从而实现对座椅的自动识别等等。核心有两点,虽然大部分车辆现在,尤其是好一点的品牌都有车位记忆的功能,但是作为我自己,包括做简单的用户调研发现,很少搞明白对座椅记忆是怎么用的,都还是自己手动调,调半天发现这个位置是最舒服的。我们通过人脸识别自动的激活,你的座位都是每次回到上次开车最舒服的,这个功能是全自动的。

    为什么用这样的账号体系呢?因为车里面的车机部分越来越像一个电脑,不像以前是一个控制单元,这里面有邮件,我们通过这样的人脸登录的行为做自动的切换,使得不同的车主之间同一台车都可以做一个信号的区隔和隔离。

    在看视频的时候继续给大家介绍,虽然人脸识别这个技术本身听的都很多,为什么在量产车里面很少见到,甚至有的车企一直是这样的,因为不光是传感器的位置、选型,快速的启动,包括车里面复杂光照环境,包括车主的一些容貌和坐姿的调整等等,给我们提出了技术上的挑战。也就是为什么我们小鹏汽车必须要通过自研解决这样的问题,从而实现在行业内实现第一波汽车能够实现这样的功能。

    从系统的启动,模型的加载到识别到左翼的调节,整个动作在15秒之内快速的完成。我们上面讲了三个更偏车端的场景,包括行车、泊车、助车场景,后面讲一讲运营场景的重要性,这个跟我们最早的分享是相互呼应的。作为一个量产企业,我们有大狼的汽车用户在使用,在使用的过程当中一些关键的数据、用户的行为,我们都可以通过这些收集回来,找到用户的所喜欢的功能点是什么,找到用户不满意的点是什么,从而进行我们通过把我们的模型下放到每一个车里面去,使得车进行在线的升级。

    下面是小鹏汽车对于智能化的一些理解,这是最后一个视频。

    主持人:各位有什么问题吗?

    提问:非常感谢郭总讲的报告,我其实比较关心的就是您L4以后对人的乘客这部分,我看一下小鹏做的是非常有特色的这部分,您刚才展示那块对他的意图的识别和他的状况的识别,目前包括哪几种他的驾驶状况?比如说疲劳,比如说跟副驾驶聊天,比如说在发呆,能够做到什么样的程度?这个提前量是多少?因为这种的状态的出现提前的预警越早,危险的系数是越低的,现在小鹏做到什么水平了?

    郭彦东:这个问题很有深度,也非常切入痛点。小鹏汽车对司机的状态分析,首先是不仅仅通过了视觉,通过了多传感器融合的方式,包括方向盘的扭矩,包括他踩踏油门和转向的方式,以及结合视觉的方式来做,这个可能也是整车厂做司机状态理解的其中一个优势。除此之外,具体到一些特殊的行为和动作,我们包括疲劳,包括抽烟、喝水,包括长时间的操控大屏都作为分神的门类进行整理、收集、测试。还有另外一点比较有意思的像你说的疲劳的提前的判断和预知,其实我们也通过研究、调研也好,发现人的疲劳期是分不同阶段的,有认知上的疲劳,还有真正生理上的疲劳,等真正视觉信号发现他长时间打哈欠,已经发现到闭眼的状态,真正有价值的是认知上的疲劳,不一定体现在打哈欠等等,但是反应速度是变慢了,类似于这样的信号我们通过多样的传感器,包括操控语音的方式,得到一些判断和分析,从而得知他疲劳了。

    提问:郭总您好,我有一个问题,您在最后运营场景那块提到的,通过上传用户的行为数据来在线的更新算法模型,我想问的问题是在这个过程当中如何能够确保用户的隐私不会被泄露?或者说小鹏汽车有什么更好的办法来尽可能的少利用或者能够在车端的自动更新算法模型,而非在云端去做这样的事情。

    郭总:这个点我一直想找机会说,非常感谢这个问题,首先对于车内数据,尤其是用户的车体视频数据是不做任何的上传,之后就删除掉了。车外的数据我们是做有选择少量上传,只有视频信号做脱敏以后的上传,并且经过了端上、传输侧以及云端的加密,我们拿到数据以后也是脱敏以后的数据,对应不到车的用户,只能达到一些统计信息。

    主持人:我们再次感谢郭总。下面我们有请清华大学电子工程系教授马惠敏老师给大家做报告,谢谢大家。

    马惠敏:很感谢有这么一个机会跟大家在一起分享一下我们的一些研究的内容,我是清华大学的电子系的,今天想跟大家分享的是在自动驾驶环境认知与学习上面的一些研究成果。

    今天的报告安排的特别好,一个落地的,一个学术的,非常好,在讲落地的这些产品的时候,我们会看到我们对我们的关键技术上面的突破的期待和一些问题,我今天是讲问题的,因为我是学术圈的。

    我们来看现在这张图像,在这个图像上面,我们可以看到,我们人都能够认出这个汽车,实际上这个汽车已经被前面的柱子以及前面的人分成了三块,大家让计算机做这个事情是非常困难的,在中间这白车后面还有几辆车,我们也是一眼就认出来了,可是让计算机做这件事情也是非常困难的。

    这就是我们真正在做自动驾驶任务下面面临的不是目前我们已经解决了标准的交通灯、标准的人和标准的车的情况,这是很正常的情况,我们更多的时候面临的是这样的一些情况。远处的交通灯以及车后面的那个车,就是在这辆车后面的车以及在地上异行的人,对于我们驾驶任务最后面的走向L4,走向全自动驾驶,这些都是我们必须要解决的问题。怎么解决呢?我们想要说这件事,我们实际上拿自动驾驶替代现在的司机,我们就要知道人是怎么做的?人怎么实现稳定、准确这样的实现他的驾驶?有人说为什么要关注人怎么做呢?其实就在这个道口,前面第一辆白色的车开过去,后面那辆车马上出现在你的面前,如果朝你开过来就会非常的危险,我们见过最多的就是电影上坏人追好人,我们在驾驶任务上面经常会遇到这样的问题,一辆车在前面开,前面一辆车出事故了,他一并道,你就直接撞上去了,所以我们怎么来解决真正在驾驶里面的视觉难题、小目标、强遮挡、高动态,就是刚才我说的高动态的情况以及任意姿态,这个车在各个路口朝着你来,新手上路的时候是很困难的。

    我们先入手看人是怎么做的?受到我要看人是受任务驱动的,我是一个驾驶员的时候,我会去关注道路道路上的状况,我如果是一个乘客,我在副驾驶的位置上,我关注的是旁边有没有卖东西的?路边的风景等等,所以任务这件事情还一直没有在我们驾驶的领域里面真正的去把他引进进来,甚至我是在高速公路上还是在城市道路上?还有有先验知识,既然我们想让车自动驾驶模拟人,我们希望他能够成为老司机,为什么老司机和新司机开起车来不一样呢?是因为跟先验知识有很大关系的。我们系有一个老师开的车特别好,他说路上车怎么不走?我说中间这个缝有一点小,他说这个缝都不用看,不用测量这个情况,这就是先验知识到底是怎么形成的?还有我们人会抽象联想的,就像刚才说到的这样的一个车,就是后面的车,凭什么是一辆车?其实我们是把他还原脑补到了一个车的完整的状态下,我们怎么完成的?最后我们能增强学习,我们通过一次一次的失误和通过一次一次优秀的驾驶我们能够做到一点,好像所有人都觉得这几点听起来是挺容易的,但是我们其实是在解决非常重要的问题。计算机能思考吗?我们的回答是thinking in 3D,这也是我的实验室一直以来做的一些事情。

    让机器学习人的思考模式,也就是我们拿AI+Machine learning,究竟要做什么呢?实际上涉及到很多,刚才郭总说的很好,涉及到心理、认知、识别和决策,我把研究分成五个部分,一个是图像认知心理学,二是显著性物体检测,我知道我是一个什么样的心理状态和意识形态,我们在这种情况下怎么把我们的注意力关注在我要检测的物体上。这种条件都具备了之后,我还会面临刚才的遮挡的情况、复杂的场景,自动驾驶不解决复杂的场景是不行的。这里面部件与结构的认知模型也是非常重要的,到现在看了一个车的尾灯还是不能做到对车的识别,我们还需要把他还原到三维场景当中去猜。最后我们谈一些仿真和决策的问题。

    我就先大概框架是这样的,但我今天讲的是第四块的内容。这个上面图像认知心理学上面,这是我们自己做的设备,你要想研究人就要做研究人的设备,我们做的AI、还有我们的心理舱等等,这些现在在民航、医院、高校都在用,因为我们要对人的视觉过程、人的反应过程等等都要做出他的判断,才有可能建立这样的模型。包括我有一个学生做这个方向,这是我们在国际上第一个量化心理特征的技术,也是我们2016年的人工智能科技创新一等奖的项目,是一个非常基础性的东西。有了这些东西对我们视觉的研究,测量人的过程就已经有了这样的手段。

    第二、显著性物体检测。实际上在心理学界,我们有一个认知学界,还有格式塔法则,格式塔法则解决什么问题呢?实际上是同物性原理。这个小松鼠非常的困难,他的肚子跟岩石一样,都非常的像,你要想把它完整的获得物体的检测,包括刚才那辆红色的汽车,三块给完整的检测到一起并不容易,计算机做起来并不容易,你要明白什么是同一个物体,来实现他的物体的检测。实际上像这个小松鼠实现这样的接近人的结果,也是我们保证在复杂的前提。

    第三、我们要解决部件与结构认知模型,在他的封面文章在2015年的12月,有这么一篇文章,他去把这样的自行车这样的结构进行了抽象,我们去认自行车的时候,根本不会说这个辐条怎么样?他的把是弯的还是直的?等等,我们不会关心这些事情,我们看到这个基本上就是一个自行车,我们对于物体的识别不是细节的识别,这个是我们2011年就发表了这篇论文,而这个东西对我们来说实际上想要解决的一些核心的部件和结构上面的认知的模型,包括汽车也是如此,因为我们在自动驾驶上面,骑自行车的人和汽车都是我们关注的事。对于人来说,我们也建立了广义对称模型,都是对人的分析来做的。有了这几个比较基础的保障之后,我们如果还解决不了,这就是我今天要说的事情,我们要引入一些新的东西。就是我今天想要跟大家分享的,在自动驾驶方面的适应复杂环境的,解决视觉挑战的问题。这上面就是我说的我们是自己研制的设备,解决的问题是什么?还见过一个很奇葩的道路上的红灯,本来是咱们这个方向走的,他在马路对面,马路对面是看这边的,非常奇葩的一些东西。我们到时候看怎么办。

    像这个烟的后面是有一辆车的,我们谁都可以看出来,但是没有任何的特征了,我们怎么做?这都是我们想要有一些办法来解决的,就是我们知道有车是因为这个烟在道路上,这个场景、高度和分布下就是该是车发出来的,另一个在我正前方道路的前方,这前面应该有一辆车,这是背后的知识。

    在这里这是我们提出来的第二个东西,叫做似物性特征。怎么解决似物性特征呢?我们先看一下咱们驾驶领域的KITTI,大家都不陌生,这是我们的评测数据集,里面有车、行人、骑自行车的人,同时有双目图象合对3D、2D的标注,包括遮挡的现象他都有,在这个数据集上面目前是一个什么样的情况呢?他符合我的要求,我的视觉所有的难题他上面有,大家可以看一下这是KITTI里面也是非常新的,可能不是到今天为止,但至少是近期最新的,LTT算法,他的精度只有80.72%,在难度集上面有复杂场景、严重遮挡、小物体的情况,行人只有62%,骑自行车只有56.34%,这意味着什么?我们刚才看到L1到L5还很遥远,我们怎么去做?其实我们想要给出来的从图像推理三维场景的先验,这就是老司机为什么他是一个优秀的那么专业。对于右边的驾驶场景图像,计算机能干什么?但是有一件事他是不知道的,我们人是知道车大概有多高的,他在道路的大概的深度的距离是该有多高,车大概有多宽,他有多重,他的形状大体是什么样的,在某一个视角下面我们统统是知道的,什么叫做认知,我们其实是带着目的,有先验知识的识别,这种情况下我们需要去整理,所以我们提出来用从图像来推理三位场景先验。

    这个非常有趣,这个能量函数,红色的部分就是图像本身当中提取的特征。蓝色的部分我们加上来的,比如说三维物体的知识表达,汽车我拿一个矩形,这个矩形有多高、多宽的时候,还有他的形状,还有他应该在自由空间里面这是车,还有他的成像几何,下面就是三维场景的知识表达,所有我现在虚框框的都是我们在图像里面含着的物理世界的概念的抽取。

    沿着这个思路,我们就去提出来三个在驾驶领域比较有代表性的算法,估计大家应该有不少人知道。一个是单目视觉下的,还有双目视觉下的立体视觉,还有多模态视觉的MV31,从而给出来对自动驾驶场景下的认知学习。

    我就简单先介绍一下这三个,首先在单目视觉的mono3D,思路我刚才说的一样,我们首先要想办法把一幅图的三维空间理解了,并不是重建了,理解的时候我们就是先去很简单,对于我们场景里面道路是我们的参照,我们可以先进行道路的分割,得到道路的分割之后,根据我们成像的规则,我们去把三维空间给近似的恢复出来,在这样的空间上面,车的尺寸,在这个下面进行检测。

    比如说,这是我们先得到了这样的道路,我们在三维空间里面去设计似物性的区域,得到了这个之后,我们继续回到二维,为什么呢?因为现在也有三维的深度学习的网络,也有三维提取的方法,但是三维的确是慢,我们的原则能不用三维就不用,我们能不用二维甚至不用二维,我们尽可能的快。回到二维的时候获得了一个比较准确的似物性区域,在这个上面我们根据似物性区域,提取他的特征,就是类别语意、形状、上下文、位置等等这些信息。从而构建一个能量函数,对于我们来说对能量函数的最小化的操作。包括类别实力的一个物体以及形状等等。有了这两块,先是通过非常经典的常用的神经网络,我们可以获得对道路的分割和对实力的分割,我们对像机的成像进行几何场景的计算,去把我们的场景结构建立起来之后,按刚才的来提取我们的能量模型进行最小化,最后我们可以获得区域。获得了似物性区域之后就有了另外的事情了,我们为什么准确的检测人等等,这个东西怎么才能进到我们的学习网络里面呢?其实就是感兴趣的区的里面,我们可以把脑子里或者我们刚才建起来的区域模型给放进来,这时候就可以极大的提升检测的准确率和效率。

    这是我负责的国家重点研发计划的子课题,参加李克强老师的一个项目,基于机器视觉的环境目标检测与识别与驾乘状态监测、评估和意图识别。非常直观,因为我刚才在单目里面,我的三维空间是靠我的道路分割计算出来的,我们必然想拿双目计算我们的三维空间。这个思路有了刚才的铺垫就更好理解了,我们其实在这里面的三维空间是我们算出来的,通过双目算出来的,算出来之后我们再去提取可能性的似物性的区域,这个就非常简单。各位专家、朋友,其实我们简单到什么程度?当我们有了这样的思路之后,什么是车呢?具有较高的点云占有率,有比较低的比例的自由体素,还有区域中的点云符合物体的高度先验,也就是说这种情况下,我既知道了空间,又知道了高度,怎么会可能出现白云当中大货车的情况呢?就不会出现这种情况了。还有如果我手里拿一个玩具车,这到底是汽车还是什么?还有一个他跟邻近区域有明显的高度的对比度。

    我们去构建一个能量函数,点云的密度、自由空间、高度先验、高度对比度,对这个能量函数进行模型的优化,最小化,这就是我们获得了2015年KITTI评测的第一名,六项里面四项评了第一,一样整个的架构就是这样的,我们在点云进行物体的先验,提取他的包括场景的先验,获得我们似物性的区域,一样通过进入到我们的识别检测的网络里面,实现准确的物体的检测。

    这是我们在单目视觉和双目视觉在汽车KITTI简单、中度、难度评测的结果,可以看到我们拿单目几乎达到,甚至在个别项上超过双目的结果,这跟我们的语意的引入有非常大的关系,但是在小目标下面,双目是绝对比单目有这样的优势,他的计算更准确。我们提出来复杂交通场景下的三维物体检测的结构,首次把自动驾驶KITTI级的从80%提高到90%,这是在KITTI上大家会比较关心是不是在别的任务上,我们再往上可以看到,我们后面想要做的事情还是更准确,必然想到的是用引入激光,这就是相关的Moon3D,这样我们把激光和摄像机做双模,实现多视角、多模态、多任务一定是发展的方向。我们去把激光点云的俯视图和前视图和RG8的图结合在一起。这个上面我们也是做了这件事,为什么从俯视呢?因为遮挡很少,俯视图可以做高度切片,我们可以把各种切出来,这也是先验,实际上我们激光测道是前视的扫描图像。用这样的来引导,我们现在得到我们三维的可视性区域,再送到我们的前视和自己的俯视图上去做物体检测。

    这个我们也做了一些前视加俯视以及相关的一些测试,都达到了国际的最好的水平,也是我们2016年、2017年分别在KITTI都是排第一的。这是在lida(音)下面一个测试的结果,有人会去说这都是拍的很好的照片,我们在百度的无人车的数据上进行了测试,就在咱们亦庄进行的一个测试,路测的结果也很好。同时我们也把这个算法做了小网络,写在了非常低端的手机的芯片,速度达到15针,分割准确率达到99%,物体检测准确达到89%,并且场景是北京和上海的实际城市道路,这也是我们一个比较大的一个突破。

    最后我再说几句,在这个上面我们有一个大的仿真平台,我们也用了海面的、空中进行了一些决策学习。刚才说到小鹏,因为我也在做这一块,我很清楚,实际上预测的时候,我们对车内人的状态的检测和环境的检测是有关联的,叫做车内、车外联合感知,在这种情况下,我绝对不能等你眼睛闭上了再做,当出现降速的时候就要去预测,我们的预测的行为预测,左转、右转的准确率93.4%,达到最好的水平,在你所有的危险发生之前,你有五秒钟的时间把遏制在这个状态下,这是我们也是自己增强学习上跑的一些车的情况。

    最后总结一下,我们这块对于场景的认知和学习,主要是有这样的理论上面的突破,主要是在格式塔法则和同物性特征和似物性特征上,也是我们一些教育部的奖等等,这是我们实验室的网站,我们发表的等等的文章,大家感兴趣的可以到网站上去下,而且我的报告在网站上也有PPT,欢迎大家多多指正,谢谢。

    主持人:各位有什么问题吗?如果没有问题,因为已经到中场休息的时间了,请大家在外面有茶歇和展出,我们下半场在四点钟准时开始。

(茶歇)

主持人:我们下面的一位讲者Peter Brown,欢迎Peter Brown先生。

    Peter Brown:大家好,非常感谢给我这样一个机会,在这里给大家做演讲,这也是我第一次来中国,非常感谢大家的款待。缝合(音)我们主要的处理的生产环节这一部分,尤其是在自动驾驶汽车中,我们已经看到了非常多的一些需求,我们对架构是有着增长的需求,希望能够使用到这样的一种以服务为导向的机制,这样可以更好的去利用这样的计算系统,这也是我今天给大家演讲的主题。

    我们也知道面临的异构性的环境,各种各样的一些元素,比如说我们说的服务间的这些通讯,还有我们的一些操作的环境,还有异构的硬件。我们说到这些异构通讯的时候,我们可以使用各种价值,我们其实是有非常多的不同的机制的,可以用于进程间的通讯。

    说到操作系统环境的时候,我们希望能够为每一个顾客提供相应特征的操作系统,这也是一个比较有挑战的,我们希望能够让上路行驶,我们希望使用不同的系统处理所要处理的这些任务,当然我们说一些开源的可以作为解决方案之一,这一部分我后面会多说一点,当然我们还有不同的异构的硬件。很多在芯片上的系统都已经得到了很好的开发,比如说我们有非常好的IBA等等,还有很多其他的处理器,他们都有各自的功能和角色。我们也希望能够在体系当中减少我们的硬件,与此同时,让他的经济解决方案更加的可行,并且能够把这样的一些概念在生产当中都能够进一步的拓展。

    我们现在看到的这种异构的计算有一定的要求,首先从体系结构上看一下,从这个概念上来说没有什么新的,一开始的时候我就是从面向服务体系的结构师开始做起来的,当时是90年代,主要是针对IT领域的,那个时候我们主要是在想我们希望能够有这种应用程序,之后我们也希望让这些应用程序相互能够进行沟通,一开始的时候我们设计并没有考虑应用间的沟通,所以我们也希望能够把这样的一些服务考虑到其中。我们说这些服务他有的时候是在云上或者在车端的从应用的角度来看,大家所希望看到的你希望,能够看到这样的API能够有持续性,也就是说在API背后我们希望能够对于开发者来说,让他能够有着一致性的,另外从应用程序的角度来说,我们也可以以一种开放的方式,并且是标准的方式进行使用。还有我们也希望能够充分的去利用各种各样的硬件,这些硬件都应该是易于开放的,而且我们希望能够使用到开放性的架构,帮助我们进行这样的使用。

    我们现在有这么多的技术是非常好的,但是我们也有需要在开发的时候更加容易一点,所以这样我们才可以更好的充分的利用他们,把他们放到他们应该适合使用的地方去了解整个的处理的过程,并且去理解整体的沟通通讯的过程。

    还有应该能够把安全性和非安全性的服务混合在一起,尤其是大家其实都在用他,大家一开始在去做自动驾驶研究的时候是从这里入手的,所以需要一些生产和非生产的同时一起来,这样可以对他实时的结合,还有我们也会有一些温和的,提供给大家的实时的操作的工具,我们其实提供已经有很久了。

    还有我们要面对的各种各样的不同的处理器,但是很有可能会出现一些全新的芯片,比如说来自于5G等等,他们的延迟度是非常低的,  第一个去支持硬件的虚拟化的技术。像很多的技术,像A76等等,他可以支持D的电路的下一代的高性能的计算处理器。

    我们还要去考虑的是服务架构是不是融入其中?A这个系列,他其实有一些是非常小的OS的,但是鉴于持续不断的为我们增加更多的性能,比如说帮我们带一些服点,还有更多的计算性能等等,我们都要把这些新的技术的发展考虑其中,我们来看一下到底?首先他是一个流程,在服务管理器上所注册的,他要如何去获取他们这些服务的各自的特点都是什么?他们需要什么样子的一些需求?所以这些服务一定要是可以被发现的,这个是最重要的一点。

    还有一些这些服务,你需要能够让服务管理器提供给你。比如说我需要这个服务提供给我这样的行为,服务管理器就会给你提供一些细节,告诉你这些服务在哪里?以及我是如何找到这些服务,很有可能这些服务是在线、不在线的,有可能使用这样的网络,使用另外的网络,所以这些细节是非常重要的。

    你需要让这些服务具有非常明确的定义范围,你不能希望这些服务可能浮在大海上,没有一个清晰的界定。你需要业务的场景去定义他,有可能会属于会计团队的,有可能这个服务在我们的车上用于摄像头的等等。

    还有你可以提供单一的用例,这个用例可以调用多个服务,我之后会给大家举一个这样的例子,另外这个服务可以使用其他的服务,你会调用另外其他的服务。还有当我们有越来越多服务的时候,我们希望能够让性能大于各个部分的总和,也就是说我们希望1+1大于2,这样让我们解决问题更加的容易,这样我们能够把所有不同的部分整合在一起,并且考虑到我们的应用势力。当我们说到服务与服务之间的对话的时候,我们所说的能够使用多个网络的传输。

    我们说SOA给我们带来的好处是什么?首先这个软件耦合的程度比较浅,也就是说系统比较可靠的,比如说我的这个服务他可能是跟提供冗余的,也就是说我有服务A、B,如果说我没有办法连接到服务A的时候,我还有备份连接到服务B,如果我能够连接到这些服务,他可能没有连到框架当中去,还可以自动帮助我进行重新的连接,所以我就可以更好的进行服务之间的沟通,这样就更好的让这个服务和其他的服务去进行沟通,不管是不是出现了这些问题,我不会太在意,因为他会帮我处理好。

    还有现在有很多的企业,他们其实希望能够让他们的实践变的更加的敏捷,尤其是跟研发以及维护团队保持一致。其实也就是说他们需要把各个团队整合在一起,了解他们是不是有一个特定的域或者相同的信息能够去了解这样的一个知识领域、信息领域。

    还有关于标准化跟安全化,我可以在我的整个服务的框架中去融入到这些标准化跟安全化,另外如果说客户有这样的需求,我要听他们的需求,我可以按照他们的需求去做加密,另外我不会有某一个服务比较弱,就不会成为我的薄弱环节。

    还有我应该能对我的行为进行抽象化,如果说我有这样的服务的整合,他可能会带来某一种特定的行为,但是我的客户可能并不是很在意这个过程到底是怎么样的,有可能我有一个团队,他主要负责提供服务,这个服务在完成之后他可以重新的进行落地,这样的服务也不应该在之后发生变化或者受到影响。

    还有我们的这种使用的方式要进行最大化,能够进行多次的重复使用,也就是说我们很有可能会经常的去多次使用他,而不是用一次就不用了,因为这样成本很高。

    还有我们应该强调开发团队能够对这样的系统架构进行正确的分解,能够把这些架构做的非常的灵活,在分解的时候也变的非常的灵活。

    这是一个案例,大家现在都有智能手机了,我觉得让大家用这样的案例去理解也比较的容易。比如说在安卓系统当中,安卓的核心就是一个机制,其中一个服务能够通过跟其他的服务进行沟通,在这样的一个案例当中,有一个人手上一本书,他想自己买这本书,但是又不想把SBN码抄下来,这时候可以把手机拿出来,首先你要用的摄像头的服务,摄像头的服务拍了照片,这个照片拍下来之后,从摄像头的服务现在到了二维码的服务当中去,他其实不知道他自己拍了一个照片,他只是希望对这样的二维码进行分解,他去分析了这样的图像之后了解到他是一个码。这个条码被传递到了数据库中,数据库并不想这个条码是从哪里了?他只要知道这个数字就可以了,能够到数据库当中寻找他,找到正确的数据的信息,之后我可以关于用这个信息,我只要拿出我的手机找到最便宜的店买到这本书就可以了。

    这个案例其实摄像头不懂条码,条码不懂如何拍照,而数据库也不知道任何关于条码的服务,但是当我们把他放到一个应用池里面的时候,你会发现其实是一个非常简单的应用程序。如果说你已经存在了这些不同的服务,你可以把这些服务连接在一起,这跟我们的汽车又有什么样的联系呢?我们说在我们的汽车中其实有非常多的服务的,他是被我们定义在自适应平台上,这个平台可以帮助我们车辆的服务架构进行定义,所有的这一切都可以提供给你,比如说自动驾驶、激光雷达,在这个车上面我们会有各种各样的摄像头,普通雷达、激光雷达等等,即便是说在我们去进行道路识别的时候,所有的这些行为都可以被分解为一个一个的小的服务。即便说是有一些非常视觉的服务,比如说你的信息娱乐系统,你们都可以在车上面召唤或者发起对服务的需求,这样自适应的平台可以给我们提供API和服务,如果你在自适应的平台上去进行服务的调用,其实他可以帮助你去自动的找到一些服务。比如说一些服务的生命周期以及生命周期的管理都包入其中了,我们能够把这样的一些数据放在我们的存储上。另外他还有一些比较好的服务,能够帮助我们去识别照片,能够去进行健康管理等等,所以这个已经成为了他的自适应平台的一部分。

    另外我还想提的一部分,很多的一些企业都希望能够生产,能够建立起来这样的自动驾驶的系统,他发现其实这种系统架构是非常重要的,有一些人有一个很好的想法,他们希望能够定义自己的服务框架,所以请大家不要这样做。

    为什么呢?为什么我们说这种自适应的平台之所以平台,是因为你需要标准,我们没有办法去和第三方的OEM实现互操作性,如果每个人都建立了自己的平台,我们是没有办法实现互操作的兼容性的。

    就像一开始我给大家所提到的,在我们去面对这样的异构的IPC的时候,其实我们说我们的标准,我们的服务都是标准的,这样才能够保证我们能够去进行不同的服务之间的一些沟通。这样都可以帮助我们提供到界面上去,所有的存在的服务都可以被提供到,我们有非常多的IPC的机制,可以是DDS的,可以是IPC的,还有我们会有比较安全的受认证的通讯的机制,而在应用层面我们其实跟我们之前的不是很一样,我们不是很在意在架构上的深度的机制是什么,而在表面上我们其实会充分的利用所有的IPC的机制,因为他们会帮助我们把这些服务提供给应用的开发者。

    还有这一部分也是刚才所说的,在我们已有的硬件上可以充分的去利用这些软件的服务,尤其是我们可以在这种异构的环境当中提供硬件和操作系统,其中我们刚才所说的给我们提供的API。

    这也是一个架构的例子,我们所说的在真正的落地案例中异构的操作系统是什么样的,在这样的一个案例当中,我们其实是提供了这样的整合驾驶舱的整合系统,在这边我们有娱乐服务、娱乐信息系统,但是目前为止我没有看到娱乐服务系统有安全系统,在这边你会看到在第一类,他可以在同一个芯片上保不同的服务。还有一个在IFPGA上升的时候,另外一个系统没有注意到,他也不会影响到其他的系统,他是一个实时的操作系统。在这边可以看到表面的架构中会有一些自动驾驶的架构,在这边还有ADAS自适应的机构,在这边我们可以整合到安卓的系统当中去都可以。还有我们还会由我们自己的自适应系统跑到这个上面的,还有也能够给大家结合我们刚才所说的管理的模块,比如说我们这边有一些模块也都是正在开发中的,我们也希望能够把他在后台、后端进行整合。

    安全,我总是想说一下安全,我也做了很多关于安全相关方面的演讲,其实安全这一部分还不是非常的好,我们还是需要能够进一步的去关注他。今天不会给大家说太多安全的细节,但是在这边我们的以太网其实是需要和安全的防火墙进行联系的,他很有可能牺牲了安全性之后会影响到整个系统,如果说牺牲了这部分,我完全没有让我的安全系统发挥他的任何作用。

    在这边大家可能会想说这张图和上张图完全一样,其实不太一样,这边我们可能使用的是ADAS整合的自动驾驶系统,所以在这边上面我们仍然会有自动驾驶的框架,他们基本上很多都是在最上面这一块的,在我们缝合(音)的上面的,他也是在缝合(音)的上面的,你可能会觉得为什么你要这样安排这个架构呢?为什么让所有的这些系统实时的去运行不就可以了吗?在这个案例当中,你可以看到的是在这边我们有这个是开放的标准,我们希望让开源变的更加容易,我们不知道有多少人做这种编程,其实不是很容易,挺难的。

    跟他不一样,我们可能会对一些关键的安全性能技术测试,并且在他之前就要做验证,比如说我的芯片,如果没有安全认证,我就会有(英)也有可能我的安全代码也是没有得到认证的。因此,在整个的服务架构当中,我们知道这个服务总是以最合适的形式存在我们的服务器当中,将这样的一种现成放到我们的(英)当中,在实时的过程当中能够加快他的速度。我们要做的事情就是要避免花那么多的成本,而且我们可以支持大量的驱动的长时间的使用,换句话说,这并不是一个开放式的系统,这更多的是关注于我们的(英)的驱动,由我们的芯片,由我们的(英)共同所组成,有各种各样的开源的一些社区特别关注于这种驱动,这种驱动会在几千、几百个项目当中使用。

    最后就是一个概念,我们会有不同的操作系统,他会去支持多种的服务,你的这种操作的环境要管理不同类型的硬件当中去跑。作为一个应用的开发人员,你要做的事情就是写下自己的服务,把他放在最合适的一个服务的运营空间,同时开发者这边的非常复杂和抽象的代码不是我们所关注的。

    还有一点,我们会做有很多异步性的结构,很多的时候我们的GPU是其中的一个进行分享,我仅仅是跟大家解释一下,如果说你想要在各个模块当中进行GPU的分享,GPU的分享是很难的,因此,我们就会在车载娱乐系统当中有一个集成性,非常有效的是他的安全性,还有安全数据库,以及这些软件,一直到整个图像的处理,3D的加速器,我们会有一个开放的(英),再加上API,真正的实现是一种开放式的驱动。通过GPU我们要把不同层之间进行分层,也就是在安全和非安全的性能之间进行分类。

    还有一些其他的功能,我刚才也是跟大家分享了一下,使用的不同的(英),也就是开放GL的驱动。这是一个具体的例子,SOC的一个例子,不同的分类,我们这里可以看到有一些芯片有很多的不同的功能,比如说A58、R52、A76AE等等这些都是不同芯片的分类。每一个都是关于我们的不同的芯片之间的通信、通道。像英特尔或者其他的一些公司,他们会有不同的芯片的时候,他们要提供的是一个库,这个库是帮助应用开发者来使用,在不同的库之间进行迁移。包括这些不同库之间的一种透明的互动,还使用相同的API能够进行一种分享。

    再看一下使用开源的一种表,比如说开放(英),同时有足够的冗余性,我各种个的SOC,这是我们在不同的芯片之间进行信号交互的通道。我要再强调一下应用服务是在以最合适的方式来提供,在最合适的方式、最合适的地点进行部署。整个的操作系统同时也是一个抽象层,从这个角度来讲,我们的这个系统在不同的环境之下,所以你可以看到这个挑战对我们来讲要建立的,并且要进行调试的,我要有一个RDE,同时我也希望有我的一些监管器,还有一些整个的操作系统和监管系统。同时我们还有自适应的服务,根据不同的(英)来决定。这就是在软件开发环境之下所实现的。

    我们还有多核的应用,可以看到我们希望有一个更加自动化的,在我们的多核的处理器当中。如果我可以调试或者是所有整个的复杂的系统,我们有不同的(英)之间,如果说我们可以让他们两者之间进行交互是更好的,我们首先要进行一个具体的活动,还包括他的内存,我也要进行原型的设计,可能你会非常的惊讶,相同的算法把他算在GPU,还有其他上面你会有完全不一样的性能,对于这种应用开发者的角度来说,你必须要有合适的工具,能够真正的将这样的系统进行调试。

    这是我们未来的一个发展方向,当然我们现在还没有达到这样的目标,在右手边讲到不同的架构,中间是我们的ara:com,他也会做很多的虚拟层,有一点真正看上去像异构性的架构。同时我们还会有一些仿真的系统,我们通过仿真来建立这样的系统。

    有一些幻灯片我要跳过一下,我们也有效的展示在今年的展览上面,我们展示了非常好的技术,包括(英)能够适应整个的系统,在这样的背景之下,我们鼓励的是(英)和开放的一些标准,最后我们希望能够推动整个架构上的更好的一些服务,还有直接的服务。还有在L3级别自动驾驶车的一种实现,推动他的一个框架,希望能够推动我们的车的向自动驾驶的发展。

    谢谢,我的演讲到此结束,有问题可以问。

    主持人:刚才Peter Brown给大家做了一个信息量非常丰富的演讲,不知道我们的听众是不是有问题?在我的演讲当中,我想要提到异构的架构,他其实在系统当中是有难度的来支持我们的自动驾驶的平台。刚才你也提到了AI他的加速器,我想问一下你整个的仿真或者是软件的影响会是什么?

    Peter Brown:对的,我觉得这个是非常棒的,大家可以看到第三方我们在(英)的展览当中,我们跟(英)一起合作,他们使用的是(英),他使用的是(英)这样的技术,同时每个人不希望有这种被供应商锁定的情况,每个人也会有一个(英)的应用,同时我们使用的是开放(英)的开放系统。

    主持人:还有一个问题,你可以支持多少的?因为我们有非常多的一些。

    Peter Brown:其实作为一种支持硬件,我们知道支持硬件是非常昂贵的,作为一种实时软件的原因,我们愿意应对这种挑战,我们会选择那种最常见的,最受欢迎的,但是最后你会支持(英),也会支持英特尔,你还会支持其他第三方的芯片,不仅是英特尔等芯片。

    主持人:感谢Peter Brown先生的演讲,下一位演讲者是来自爱驰汽车人工智能中心首席人工智能官陈学文,有请陈总。

    陈学文:大家下午好,上半场的时候大概观察到一个工业界、一个学术界,下午我们是两个工业界,一个学术界,所以为了起到一个承上启下的作用,在我的PPT里面可能也会看到一点点公式,不多,我以前也是学术界出来的,我主要讲讲看我们对新技术下的智能化汽车的理解。我来自爱驰汽车,在上海。

    大家知道汽车历史,我们从马车开始,从三轮马车开始,到后来1886年取代了马,第一台汽车。到了1967年有了电子元件,ECU出现了,当ECU出现以后,这个时候我们真正认为电子化的开始。到了2015年是联网的汽车,实际上在1999年的时候,美国已经提出了联网汽车(英)的概念,但是到现在为止实际上这个东西我们以往计划的东西都还没有实现,希望在5G的情况下汽车真的在网上行驶的一个智能体。

    我们进入今天的主题无人驾驶,所以现在电动化我们知道在中国来讲现在已经是一个趋势,在世界上也是一个趋势和主流,基于电动化之后我们有网联化、智能化,这也是我今天想讲的网联化、智能化,尤其是网联化对智能化带来什么样的影响,所以这是今天想交流的一个主题。

    我们知道汽车最关键以及最核心的是安全,前面大家很多嘉宾讲了很多关于安全的事情,安全我们知道每年有100多万个生命是死于汽车交通事故,相当于每天有7架可以装500人的飞机坠毁,这是非常可怕的数字。安全事故很多是人为导致的,90%多是人为导致的因素,所以这就是为什么现在大家都在推崇ADAS或者智能驾驶,因为这个可以使我们的汽车更安全带来的解决方案。

    汽车的安全,我们看到从一个被动到主动,到后面的可能我们叫做预防性的安全技术的转变过程。从被动开始,我们现在知道最早的气囊,出了车祸之后弹出来了保护你,这是一个被动技术。到了后来随着我们的驾驶级别的不断提高,会有不断的有主动的提醒或者主动的保护你,到最后可能预防性的。右边那个图大家看到是一些汽车装载了ADAS的系统和没有装ADAS的系统,实际上整个安全系数,装的ADAS是提升了30%多,这是一个非常可观的数据,这也是未来应该是ADAS和无人驾驶的系统,因为他能够大大改善我们汽车的安全系数。

    这个我就不再详细说了,反正这是无人驾驶的几个定义,从L0到L5,最关键是2之前人负责监测周围的环境,再之后由机器取代了。

    我们现在知道做无人驾驶或者ADAS是有很多的途径,有OEM做车的,有给车供应的原部件的,还有科技公司,做无人驾驶有不同的时间路径,有的路径直接干到L4或者L4以上了,有一些可能是做ADAS跟L4同时做,还有的ADAS往上跑,所以有不同的优势跟劣势,车企和科技公司有不同的优劣势,但是核心技术大家要的都是一样的。

    今天上午看了很多人工智能的关键技术,比如说懂机器学习等等,其实还有很多像信息交付安全技术以及基础支撑,比如说高清地图等等。自动驾驶、AI算法的算力需求也是不断提高,随着自动驾驶分级的提高,他是每提高一级算力就增加一个数量级,这个图我们看到L1的算力是1个TOPS,按照数量级慢慢的往上增加。刚才嘉宾介绍的后面的芯片提出很高的要求。

    当然不同的传感器,因为无人驾驶有很多的传感器,就是我们的耳朵、眼睛,传感器包括各种各样的超声波、激光雷达、摄像头等等,他们有不同的场景下的不同的应用,一般来说把这些东西最后要有冗余,把数据结合起来。

    这个是我们做的工作,怎么把冗余的数据进行融合,主要讲的我们车上有很多的摄像头,每个摄像头如果放到一定的角度,拍出的场景,右图可以看到有一些虫重复的地方,也有一些不重复的地方,所以每一个提供信息是不一样的,当汽车行驶的时候,可能某一些摄像头提供的信息会更重要,但是走过一个场景之后,可能下一个摄像头提供的更重要。这是一个动态的不断迭代的过程,基于这个我们学习出来在什么场合哪一个摄像头提供的信息更为重要?他会有什么样的权重?所以这个里面基于今天上午看了很多的深度学习、增强学习,基于这样的技术,把这样的技术融合起来,怎么样真正找出来哪一个摄像头跟哪一个场景现在做判断是比较有利的,而且对安全最可靠的这么一套技术。结果实际上效果是非常好,今天没有展示。

    无人驾驶这些技术的要求实际上对我们的电子架构提出了新的要求,我们想要的服务决定硬件,服务到软件到硬件的思维方式,在这个里面大家看到是由技术和策略动力同时推动电子电气架构的演变,技术的或者是算力的要求或者高性能的CPU等等,包括模块化、平台化的设计等等都对新的电子电气架构给我们带来很大的期待,因为现在的电子电气架构,我们讲的分布式已经不能满足现在我们讲的ADAS也好,以及整个的将来服务,服务包括ADAS、无人驾驶等等都是服务,我们提供的服务,这个时候已经不能满足这样的要求,所以这时候的要求改革需要有新的变化。

    特斯拉已经给出很好的例子了,大家也看到过。最上面是博世的他们的研究方案,是从最早的分布式的,最简单的ECU来了一个功能就有ECU,分布在不同的地方,我们最后叫做易控制器,把不同的组合起来,这样冗余性可以大大减少,再到最上面的E跟云之间的融合,这是博世提供的一个方案,实际上我们看特斯拉的电子电气架构,我们叫做一步干到位,今天可能很多人是计算机的背景,按计算机的思想来做电子电气的架构,这个我们也认为相信是未来的趋势。除了这个之外,刚刚Peter Brown先生也讲过,服务来源于架构是一个很好的解释。

    无人驾驶本身产业链,基于看IT和汽车OEM不同的产业链,他的供应链很强,我简单介绍一下,比如说从IT企业来讲,可能做高清地图、激光雷达等等,就要到智能化,通过网联,汽车企业转入了以后考虑成本,所以他做ADAS,这时候基于ADAS的环境感知,做了车载系统,但是现在成本考虑,可能有一些做ADAS不需要激光雷达了,他包括后装跟前装等等,这里面发展的步骤肯定是不一样的,我们想真正做到无人驾驶,我个人感觉路还有很久,除了低速的尽快落地,但是真正高速的在城市当中行走无人驾驶可能还要很多年,所以从ADAS慢慢的一步一步的往上升级。

    现在出了网联这个东西,网联这个东西我个人感觉是一个好东西,他可能对无人驾驶的落地起到很大的推动作用。本身我们讲C-V2X现在已经是一个很老的概念了,1999年美国已经提出了,但是到现在并没有起来,现在车更多的是跟手机连起来了,但是车和车并其实并没有连起来。

    我们先看一下在这之前的通讯系统,叫做专用短程通讯,还有蜂窝移动通讯,这两点各有他的优缺点。就像我们的左边这个图,所以他需要做很多这种东西,这里面用起来不方便。后面4G的LGTE个人看法是比较主流的方向,而且能够很快的扩展到5G上面。现在这些东西这两个现在的技术如果做到无人驾驶,从技术上来讲应该还达不到,我们刚才讲的对数据的传输,对实时的响应等等。比如说雷达、摄像头、ADAS需要的数据,大家可以看到,特别是摄像头是100到700的MBPS,这个传输率没有压缩是非常之大。ADAS也是10到100个MBPS。所以当前的车辆之间的能力达不到的要求,这就是为什么我们觉得5G的出现可能会改变这么一个情况。我们知道现在无人驾驶如果真说那个方向的话,还有特斯拉的不用雷达,我就用视觉去做,把整个的无人驾驶做出来。现在我觉得5G的出现可能能改变这样的,5G+上特斯拉的东西,我个人判断能够加快无人驾驶,因为5G如果真能实现能够(英)实现的那些要求,可能还没有做到,不行就整6G,这个就要看了。

    刚才讲5G比如说低时延蛮关键的,我们看一个例子,比如说低时延为什么那么重要?在自动驾驶的时候,如果高速公路是120公里每小时,我每秒钟可能是33米,如果有一秒钟的延时,可能就会有40米的自动距离,也就是当危险传过来的时候可能已经控制不住了,所以低延迟非常重要的,当前的LT是做不到的。

    举一个例子,在非常滑的高速上面,如果你的车通知后面的车做好准备,这个时延的要求是非常高的。同时时延之外,5G还有不具备其他的优点,比如说更高的带宽,更大数量的连接,包括现在有D2D之间的连通,使他整个时延性大大的降低。

    车联网现在的5G很大的应用场景也是我们将来判断的5G需求的一个场景,右边这个是他的一些具体参数,我就不具体讲解了。

    有一个组织叫做5G卡(音),提出了一些设想,这个设想在5G场景下,刚才讲的如果5G真正做到这一点,是非常美好的场景。最开始的时候在4G场景下,我们可能交换的是一些数据,现在我们都可以做到,车跟车之间交换一些数据。比如说我们从一个道并道一个高速公路并道进来,我可以跟两个车之间相互谈判,我现在离叉口多远,我大概多少分钟,我现在速度是怎么样的?他能安全的并进来,这是第一点。

    第二、更重要的是传感数据,把我车上的传感数据,比如说摄像头数据,雷达数据传到后面的车,这个后面的车是能够看到前面自己车看不到的东西,这个就非常重要了,这个里面第二步的(英),就是我能看到前面人看不到的东西。

    还有就是安全,当5G的情况下,比如说当行人手上带了装置这类的东西都能够挖出来,我就能够提前预判,提前知道,虽然我看不到他,但是我能提前知道这里有一个行人在行走,注意安全。

    还有第四步地图相互之间可以传播,因为5G带宽足够大了,可以做传播了。最后远程开车,也是在5G的情况下都能实现的一个场景。

    这个就是一个具体的例子,大家可以看到也就不细讲了,一目了然,超车也好、管弯也好,这里看不到的地方,这时候包括行人,所有的信息能够很快的传过来,低时延的传过来,我能及时的做好判断往下行走。

    云端的传感器共享等等,我们依托5G的应用,还可以整个智慧城市连起来,所以真的能够实现我们叫做共享化的出行。

    最后,我们认为看到5G+人工智能,可能加快无人驾驶落地应用,未来我们可期?现在当然前提是5G是不是我们想象的如期到来,并且达到我们想要的那些参数,这是很关键的事情,所以大家都很期待,我的介绍到此结束,谢谢大家。

    主持人:陈总给大家留了比较长的时间提问题,大家有没有什么问题?

    提问:陈总您好,我想了解一下爱驰自己本身在AI上,他跟产品之间是怎么结合的呢?在我们车的产品上。

    陈总:在车上面,分为几部分,我们爱驰先做一个广告,爱驰今年第四季度SAP就会出一款车,挺漂亮的一款车,大家有机会都关注爱驰汽车。

    至于说智能化落地,我们可能有合作方跟我们自己自研相结合的,因为我是去年6月份加入爱驰的,我们团队今年慢慢的搭起来,大家知道汽车整个的研发过程是很长的,不可能一下子把他的东西用五个月、六个月把东西放上去,所以我们是合作加上自研的方式。

    爱驰比如说ADAS的该有的大部分我们都有,比如说智能导航、巡航、泊车等等该有的我们都有。同时在车联网里面我们加入了很多自己的元素,欢迎大家下个月11号的时候在上海有一个CE展,会展出我们的理念。包括人工智能给我们用户带来什么东西?其中包括通过人工智能的方法,刚刚上半结小鹏汽车董总也介绍了一些类似的东西,比如说对人、对车的检测能够干什么?应用场景在那边,包括对人怎么样实行交互,还有虚拟形象等等,这都是在这块的应用,下个月11号在上海就可以看到。

    主持人:我有一个问题,这个问题稍微有一点点尖锐,现在有很多家做汽车的,您觉得在爱驰,比如说在做AI的路径下跟其他家是什么样的竞合关系?

    陈学文:竞合这个引用的非常好,因为去年的发布会上也用了这个词,竞争又合作,是非常好的一个词。这么说吧,团队也是慢慢起来的,从无到有,从有到大,很多基础性的东西人家做的好的东西,你没有必要去做。比如说语音智能交互可以交给科大讯飞等等也好,合作起来做这个事情。如果在此基础之上,人工智能能够提供一些其他的能力,比如说交付的时候某种方言的互动,某种场景底系的,这些合作方可能不大愿意做这个事,这个时候我们自己拿过来做一些特色的,有个性化的一些东西。包括底层的数据,怎么打通做真的个性化,这个自己来做,竞合的关系,真的是又合作,同时有的自己在做,打造能力做一些事情。

    主持人:如果大家没有问题,我们再次感谢陈总,下面我来讲。非常荣幸我们在汽车相关的论坛上讲一讲我们之前的一些工作,我还算是一个做硬件和软硬件协同优化为主的研究者,所以我今天主要还是讲一讲我们之前在IPGA(音),其实也是主要在车里面用到的一个器件上面的工作,以及我们对于下一步我们在看的几件事情,也跟大家一块来探讨未来的合作的可能性。

    首先可能大家都见过很多了,我们现在中国,特别是在未来的这段时间里面肯定会对自动驾驶,不管是从L几,从L2、L3到L4、L5都会有很强的驱动力,我们从学术界来讲看到的其实是L2、L3肯定会发声,L4在特定的场景下也会发声,L5这件事情可能就看政府愿意不愿意买单,这是我的看法。

    从一个做硬件人的角度来,其实我们车上面现在用到了很多种传感器,Tesla对于芯片或者硬件的计算能力产生了很大的压力,不仅仅是计算,其实还包括传输,我们这里列了几种,一种是我们的摄像头,他可能需要带宽百兆每秒的,还有雷达等等,当然看到的这些小带宽的有可能他已经做了一些预处理,提取出了一些有用的信息再传回来。

    我们不同的车,其实他的传感器的布局都是不太一样的,包括传感器配置都是不太一样的,这里列的是特斯拉和谷歌的,当然在这里还有很多的车厂,或者在不同的自己的车辆可能需要更多的传感器去支撑。我们看到的事情大概每一秒产生季绍G大B的数据。有了这些数据之后,因为人们需要把这些数据用一定的人工智能的方式来去做处理,而现在我们看到的学术文章以及我们了解的一些公司里面采用的算法,大多数都会用一些人工智能的方法来去做感知。这个感知的算法本身他所需要的单帧图像或者单帧数据量的处理所需要的计算量其实是比较大的,我列的是比赛所需要的网络所需要的数据量对于处理一张很小的图,就要需要GZ(音)运算。其实英伟达在这方面已经做了很多的尝试,所以我们有时候直接拿英伟达的计算能力来去做比对,对于这样多个传感器的系统,英伟达刚才我们也看到了介绍说有可能L4到L5是用这样的(英)平台来去支撑的,这个平台可能是几百T此(音)运算,在几百瓦这样的量级,所以我们也能够看到他的计算能量效率其实是每瓦大概一T此(音)运算。

    当然有时候我们跟他开玩笑,我们开始慢慢的用电动车了,电动车里面计算所需要的容量是不是跟你开空调是差不多的?我打开这个之后,使得跑的里程数就变少了,这肯定是大家不希望的,所有的人,包括英伟达,包括所有我们做硬件的同事们都希望能够用一个更高能量效率,也就是单位瓦特下我能提供的计算能力更强的一个硬件来去支撑我们所有的自动驾驶的能力,这是我们看到的需要去提高能量效率。

    怎么去提高能量效率呢?这张图其实是我们从电路的角度来看有三种模式,第一种模式,大家可以看到要评论那条的线,叫做(英),也就是我不停的缩小晶体管的尺寸,因为我们都是用01做计算的,最下面做的这个事情其实是0到1的反转和1到0的反转,这就相当于充放电的过程,对于一个小电路充放电。如果我晶体管变小了,电容就变小了,充放电就变快了,并且充放电每一次所消耗的能量,因为电量变小了,所以整体的能力提升了,但是大家可能在新闻里面看得到最小的尺寸现在已经到7个纳米,甚至更低了,再往下走会越来越困难,到1个纳米可能就不动了,所以第一条线如果你不改架构,我只是通过这种把尺寸变小的方式现在是比较困难的,所以从我自己博士毕业,大概2005、2007年之后,大家都开始说多核,或者针对某一个应用域的加速器来解决这个问题。我们看到一条蓝色的斜线,针对每一个应用率,其实GPU最开始的为了图形图像的显示以及图形的计算来做的,因为我整个这样的面板上面可能有几百万个像素点,每一个像素点做操作是类似的,CPU做的一个一个的像素点来算是非常低效的,所以英伟达或者当年的GPU公司都说用一堆小核,每一个小核只做一个元素的一点点操作,这样的一个机构来支撑大规模的运算,所以后来英伟达英伟达杀出来了,他也更适合做稠密矩阵的运算,所以后来所有的稠密矩阵的运算基本上大家都用英伟达来做,这是一条线。

    后来出现了人工智能的深度学习之后,我们发现不一定所有的东西都是稠密的,所以这是为什么我们之前做一些研究的时候发现有可能我用稀疏矩阵以及低精度的表示,有可能做的更好。一般来说比如说GPU里面会用32比特,甚至更高的64比特描述一个数,但是在神经网络里面有可能是8比特、4比特、2比特就可以描述一个数,所以这也是英伟达出低比特的支持也是为了适应这样的潮流,我们可以支持稀疏,这就是(英)的一条路,这条路是现在工业界现在看的路。第三条路就是这条绿线,现在还可以做的很好,也是在研究的阶段,我们怎么样从一化的方式,或者是量子都还在接着做。

    今天我主要还是给大家讲一讲(英)在神经网络或者智能这块的一个趋势,这是(英)和(英)他们两位图灵奖的获得者提到的一个点,因为我的(英)很难了,所以最好的办法针对一类应用提出一种架构,这种架构可以针对这一类应用都可以做。比如说我们之前做了神经网络加速器的设计,也是这方面的工作,这样的东西他们说可以更好的适应一个特定的领域,也可以更好的利用我的计算和存储带宽,我可以把一些并不需要那么准的东西给去掉,所以有可能有一些专用的语言去支撑这样的领域的发展。

    这是我们之前总结的一张图,大家可以看一下这是深度学习的加速器的一个点,如果大家想去看更丰富的点,我们现在大概列了一百四五十个我们觉得比较好的在这个图里面,大家如果有兴趣可以看一看。我们横轴是瓦数,可以看到如果不同瓦数其实对应的是不同的应用冗余,大家可以想象0.1瓦基本上都在特别小的里面,0.3到0.5瓦在大家的手机里面。如果在摄像头里面基本上在1到3瓦,如果在车里面我觉得英伟达给出了非常好的例子,其实应该是30瓦左右,当然现在他为了满足大家的需求,可能出了300瓦的,大家先把所有的东西跑出来,未来在车里如果是30瓦的芯片可能是最舒服的一个状况。服务器上可能在百瓦这个量级。

    在横轴瓦数确定了以后,其实主要看我们看的越往左上角走越好,说明我的计算能力越强,越往左上角越好。我们可以看到分别他在不同的圈圈下面能看到他们还是有不从分布的,我们当时是用(英)来做神经网络加速,可以发现他可以大概比从当时的GPU要好一个量级左右。

    为什么是这个样子?因为我们最开始做深度学习的时候,我们做了一个分析,因为当时我们有GPU的平台,我们做了一个测试,我们发现GPU里面有两个问题,第一个问题做单张图的时候,不是所有的核都能用满,有很多地方是空闲的。第二、我算完了以后,我要去外面读数进来,刚才看到两条竖线之间的空,我还有一些空闲,所以我是不舒服的。还有那两条竖线的空闲其实是宽数的,这个代价比你做乘法要大很多,要大两个数量级到三个数量级,所以我们尽可能的避免半数,有没有可能把一幅图的计算变成我尽可能高效的利用芯片里面的每一个计算单元,这样周而复始能够取得最高的能量效率,所以我们在想能够去做最高性能的,放更多的计算单元,提高这些计算单元的利用效率,并且还要做网络压缩,这就是当时我们在2015年的时候创建了深鉴科技,在2012年开始做研究,在2018年7月份被收购,收购完了之后,我们之前做的DPU可以作为一个IP融合到整个工具链,以及他的IP库里面,如果用IPGA做神经网络加速,可以调用这样的IP和整套的流程,使得你的算法可以很快的映射到IPG上,这是我们之前做的工作。

    其中看到的最主要的理念就是刚才我说的软硬件协同的优化,一方面我们在算法这块,我们尽可能的让(英)变低,也就是把神经网络保持准确率的情况下把他压小,这样对计算和存储的要求就变低了,我要尽可能去做量化,也就是说我用4比特、8比特表示一个数在做权重或者做数据,这样我的每一个乘法器和加法器就可以做的很小。因为32比特的乘法器大概是8比特乘法器10倍的资源,所以去做量化,现在在看神经网络如果能到布到硬件上也是我们最早在学界和业界推广的。

    有了这样的量化之后,我们可以在给定的资源上,比如说原来只能放100个乘法器,现在可以放1000了,因为我们做了大量的量化,这样就有有1000人帮我干活了,有了1000人能帮你干活,但并不一定给一张图以后都帮你干活,所以我们做了一个设计,这样来提供他的利用率,给一张图确实有900个都在干活,而不是只有100在干活,所以这是我们一个主要的思想,后面这是数据了。

    这是当时我们先有的一个稠密的,我们再做(英),得到了最后的网络,我们可以看到(英)的结果基本上不管是分类还是(英),因为其实分类网络并不是很常用,在实际的应用里面,实际的应用里面还是在一个图里面找到感兴趣的区域为主,所以(英)很重要。我们看到大部分的(英)里面,你的准确率反而会有一定的提升。

    这是量化,我们可以看到基本上8比特就足够了,一般设计8比特的乘法器在芯片里面就已经可以足够用了,逻辑基本上都是8比特。这个其实没有太大的信息量,大家如果感兴趣可以搜我们之前发的报告和文章,大家问我们你们到底支持什么样的网络?我说我们支持去年发出来的主流算法,因为我们的理解去年发出来的主流算法,大概在今年可能会被业界试一试,明年可能在产品数据再会试一试,到后年的时候才可能真正的放到系统里面,所以我们大概按照这样的节奏去做事情的。

    因为驾驶方向其实也是之前我们在做深鉴科技的时候主要的一个方向,有三个方向,一个是监控的领域,我们发现每一个拍出来的视频一定要做结构化,这个量是很大的。第二个数据中心,因为所有的东西都要放在数据中心去算,第三个是驾驶。L2、L3我们觉得在未来已经很建的时间里一定会有,L4也在慢慢的往前推,所以这块是我们的重点,所以我们把几乎所有的能够找到的算法都在IPG上试了一下,也能够有不错的效果。这是我们之前做的IPG的工作。

    大家会说我是不是一定要IPG?我说不一定,其实可以看到这是我们总结了一张目前做全世界做所谓的AI芯片公司的列表单,当然不一定很全,但是已经比较全了。可以看到除了芯片厂商,IP的厂商以及中国和国外的初创企业之外,所有的大家叫做得出名的大的系统的或者科技厂商,包括特斯拉都在做自己的芯片。

    大家可以想象一下为什么?因为只有应用厂商自己知道自己到底需要什么样的具体的应用,而且他又不想让芯片的提供商来去作为唯一的提供商,因为现在这也算夸英伟达,现在也只有英伟达能够满足目前自动驾驶的需求,其他的大部分的车芯片都没有办法满足这么大的计算量的需求,所以特斯拉说我们自己搞一个吧,他们就开始搞一个了。所以这是一个大概的情况,当然车可能会更慢,大家可以预期车会更慢。

    有这样的一个背景之后,我们从大概一年多、两年之前其实就跟我们的车辆运载学院一起有很多的合作,我自己也是希望去做一个面向车的开放式的平台,使得我们做自动驾驶或者辅助驾驶系统的研究的门槛能够降低。去年我们一块在老师的带领下,我们申请了国家重点计划,其中有多家车厂跟我们一起做这个事情,做的自动驾驶电动汽车环境感知的技术研究,所以这个地方做的事情就是刚才我们说的协同的感知,并不是完全单车,我们希望通过多个车来去看,0到150米范围内有没有障碍物,并且希望在200毫秒之内就能够预测出来,当然准确率还比较高,所以这是一个从算法到单车到多车通信,到协同感知,到系统实现的整体的项目。

    在面向这样的一个项目,我们正在想这样的平台或者说系统的平台应该长什么样?其实刚才嘉宾讲的非常好,其实跟他的很多想法有一些是类似的,我自己擅长的最底下的计算平台这块以及我的(英)那一部分,但其实大家想象一下如果做一个智能系统或者在车里面做一个智能的平台,不仅要最底下面的东西,你还需要有怎么样把这些应用映射到上面的工具,以及我们应用的实力供我们去参考,所以在这个的方向上努力的再去尝试怎么样把之前做过的(英),把他放在我们设计的平台上,我们也在设计一个相对开放的硬件平台,我们放了两颗大的(英)和一个多盒的CPU在一个大板子上,不仅能够支撑很多的传感器的配置,用这样的平台来去激发中国的学术和产业界在系统方面的事情,所以我们现在在慢慢的把我们之前做的(英),以及对于场景的感知这些东西在这样的设置下,我们现在假设有什么样的雷达,什么样的(英),把他一起放到这个平台上,我们期待是在今年的下半年给大家去试,这也是之前汽车系原来做过的一些应用。

    做这件事情还有一个非常重要的出口,大家知道2022年是冬奥会,冬奥会里面会在一些封闭的园区里面,真正让我们的自动驾驶跑起来,这个事情也是清华大学牵头的,所以我们也希望用我们做出来的这些技术能够在不同的车型,在不同的路况和应用上都把我们的事情用起来,这也是我们在跟国汽一起努力推进的,有没有可能我们去把开放的架构提出来,由清华大学跟国汽一起,包括哪一些东西?不仅仅是怎么改车?还有怎么样去做接口?怎么样去测试?以及怎么样保证他的安全,这个背后都需要有一套软件和硬件的平台来去做支撑,我们希望这套硬件和软件的平台也是开放的。

    开放的问题,你为什么选IPG,不选择其他的东西?我国想未来不一定只有GPU、DSP等等,他其实是一个很多个平台,我到底什么东西适用?什么东西更高效?我可能用什么东西,但这会对应用的开发同志产生很大的困惑,下面是我不同的硬件的模以及处理器的模块有不同的CPU、GPU等等都会出现,如果我两两之间要去连线的话,这样的开发代价是非常大的。这样一套映射的软件和怎么样部署,其实都是目前看到的非常大的问题,这个也是我们目前要解决的事情。这个就是刚才我说到的如果我们要真的想做到跨车的或者多车的协同感知,我们简单做了一些计算,其实他真的要求我们的(英)和我们的(英),也就是车内的通信传给其他的车,就是(英)的,由我主车知道我到底旁边有什么东西,整个的这边列的五步,比如说100毫秒,当然越快越好,我们现在设的是200毫秒,有没有可能100毫秒,甚至更短的时间做到,我可以及时的提醒你,这是一个非常重要的问题。

    还有一点,我们慢慢的在去搭建的一件事情,刚才说到多车,一种方式我真的在外面的外场做测试,另外一个我自己是做硬件加速的,我们的想法是单个能力已经开始增强了,有没有可能把多个增强后的单个组合起来,一起完成原来做不到的事情,所以慢慢搭一些联合的、协作的多个智能体的研究,这是我们自己搭的一个小平台,至少现在用的(英)的GPU,整个软硬件的平台都去做到,也需要有仿真,其实仿真是非常关键的,其实如果你光有一个硬件平台没有用,因为你所有的策略是需要设计的,设计要初步验证,一步一步的来做,先有最抽象的质点的仿真,再包括一定的物理场景和物理模型的场景,里面怎么去做到?这个也是我们慢慢的往后走的时候看到多个怎么去构建平台所需要做的事情,我今天主要分享这些,感谢大家。

    大家有什么问题吗?

    提问:是两个完全不同的东西,底层来说是一样的吗?像你刚才说的八个,这些东西都可以在L4、L2都可以用吗?

    汪玉:这是一个非常好的问题,我们现在在做的事情还是更复杂的,支持面向L4来去做的全功能的映射的软件的(英)和映射的方法,在一个平台上,这个其实是一个相对通用,支持L4,所以第一步做的大的,加上CPU来做。如果你在L4上面把几乎所有能想到的东西都映射上去以后,L2、L3我个人觉得把这些算法进行裁减,你在算法进行裁减的时候,所以相当于我们要裁一个子集出来,当我们做L4的研究的目的希望探索这样的大边界是什么?如果我们定义出来了L2、L3的时候,迅速的把这个边界迅速的收敛到小的边界上,这样更容易使用。其实(英)在背后都是考虑硬件约束的情况下的算法的最优化的部署。

    提问:L4在什么时间从您的专家的角度来看可以量产?再说一下车的量产如果应用的话,可以预测一下。

    汪玉:首先我个人觉得L4的单一芯片的方案,我觉得也只有英伟达能做了,一般的厂商都很难把这个量给撑起来,因为L4一般来说是封闭场景,封闭场景下,除非这个量作为一个做芯片的人来说,这样把我的每一颗芯片的要降下来,这个事情稍微远一点。大家可预测的是在未来的三年到五年里面应该是一个异构的平台为主,上面有CPU,有GPU,甚至有DSP等等,这就是我们为什么说从算法或应用到平台这样的映射是很关键的,因为底下是异构的,这是我的看法。比如说矿场,我做一个矿场管理,这个事情我已经收敛了,我就发现只需要这个功能了,我可以定义出来我们的芯片的时候,而且我的量又很大,成本足够低,至少成本赚了,我才去做芯片,否则做芯片都会亏本,这是第一个问题。

    第二个问题,L2、L3有可能是更快的,因为他的应用相对来讲比较明确,也有一些公司在做芯片,我是觉得一应用需求定下来了,算法相对稳定,你就可以做芯片。L4就看做应用的同志们,什么时候把应用做的量大,而且用的人多了,且稳定了,我们会觉得稍微有一点远。L5够更不知道什么时候了。

    提问:请问一下从芯片上升到控制器而言,您考虑到控制器的功能安全了吗?或者有的芯片是做功能的,有的芯片是做冗余的。

    汪玉:这是一个非常好的问题,我们最近还在很多地方都在讨论,国家也在讨论这样的问题,我怎么样把车规里面的一些需求跟硬件结合起来,包括一些备份和冗余的,怎么加到这样的系统设计里面来。从我们这个平台角度来讲,第一版可能不太会考虑,我们不停的迭代,五六个月迭代一版,这样的方式出我们开放的平台,但是在量产或者期望量产所有的芯片公司,其实他们都在考虑这类的冗余和备份,一定是有的。因为英伟达出一个也是两个,他至少有两个,一般能看到有2,或者大于1,应该在考虑这个问题,所以从数量上可以做一些推测。

    提问:主机厂他自己在做视觉的芯片,有一个硬件也在做芯片,有一个算法也在做芯片,现在感觉这块局面还是比较多元的,随着每家厂商的能力不一样,他会做拓展,因为我是做产业投资的,所以我就蛮关心底层这个逻辑这块,您对这块怎么看他们未来的(英)是什么样的战略考虑?

    汪玉:大家可以看到两条路,一条是苹果的思路,所有的都是都是自己做,优化程度是最高的,也许只有苹果能做这样的事情,他需要一个非常庞大的收入和他的利润支撑住我能够把这个做完,所以他可以做到最底层的芯片,但是对于大多数的企业来说,我们需要分层的,每一个人负责自己的那一块的工作,比如说我是做芯片的,我就把芯片做好,但是这个分层在应用相对清晰的情况下,现在为什么会出现这种情况呢?其实我觉得大家对于应用的需求的定义还没有到那么清晰,所以做芯片这件事情其实是一个比较大的(英),要不然你做单个IP的,我们原来做单个IP的,但是你要做整体的(英)方案,你必须跟主机厂走的很近,你要了解他们的需求才敢做,像英伟达他刚才跟董总说,他敢做驾驶这块,其实也是有游戏这块作为一个很强的后盾,他是有其他的收入的来源,能够支撑住在这方面做大规模的拓展,所以可能不同的公司逻辑是不太一样的,所以我是觉得没有到真正大规模能做的时间。

    提问:比如说在工业或者是游戏以及其他手机产业链转过来做,他多条腿走路会稍微安全一些吗?

    汪玉:这个有可能,我不知道。

    提问:但是我们可以看到另外一个反面,他可能擅长别的领域,他想进入汽车这个领域,他也不一定说原来的场景就能够带进来,我们看企业标的的是比较矛盾的。

    汪玉:所以现在想投这块还是挺费劲的,因为一般来说做人工智能这块大家都说有三个东西,一个数据、算法、算力,既然你想投算力,不能够抛开算法和数钻,数据和算法更多的意味着你对于应用域是否理解?你没有对应用域充分的理解,你尝试把芯片做起来还是挺难的。

    提问:我从功能安全的角度来看,现在AI的算法有识别精度,像一般我们可能到95%、96%、97%,但是实际上功能安全角度,出错率至少是99%,甚至更高,在这个情况下,针对AI算法有可能出错的问题,我们在算法系统上现在有哪一些思路或者提高准确率?

    汪玉:我自己的算法没有那么好,我只是大概的说一说,神经网络不能确保可解释的,目前来看是不能的,这里有很多的争论到底用不用驾驶这样的领域,所以大家现在看到的都是(英),肯定是可以用,真正错了一点也还OK。第二、为了去提高准确率和可解释性,一般会用比如说多个传感器,多个不同的算法,所以这样对于算力其实也有很强的要求,所以一般来说用集成的方式来去掩盖目前的不可解释性。这是我了解的。

    提问:现在AI的性能上面,我们原来处理这个真率,识别人脸慢一点没有关系,但是在车上如果识别慢一点就会发生事故了,在这块都有哪一些手段或者有哪一些思路?

    汪玉:如果以速度的角度来出发,一方面设计运算量更小的算法,这样使得处理一张图变的更快,另外一个我要让下面的硬件能够使得我算的更快,所以芯片也是非常重要的。还有一些趋势,比如说我的传输在这件事情(英)到我出结果,其实你要传东西的,我能不能不传整个(英)出来的,所以把传感器和这些计算单元离的更近也是一个很重要的事情,这样我传输的变少了。比如说我在(英)端就把你感兴趣的东西找到,只传你感兴趣的东西,但是这个还是比较远,最后这个还比较远,可能还需要一些时间。

  • 联系长芯

    重庆总部:重庆市长寿区新市街道新富大道5号佳禾工业园8栋2层
    电话:023 40819981 (前台)

    深圳办事处:深圳市南山区留仙大道 1213 号众冠红花岭工业南区 2 区 1 栋 1 楼
    电话:0755-26975877 (前台)

    电子邮件:sales@longcore.com

    网址:http://www.longcore.com