任鹏举 :西安交大任鹏举:面向自主智能体的计算架构思考

西安交大任鹏举:面向自主智能体的计算架构思考       

进入工业4.0时代后,机器人由传统数字化、自动化、智能协作演进为自主智能体。智能驾驶、无人机、机器人为代表的自主智能体,以智能边缘、计算机视觉、自动控制等创新技术作为支撑,将面对复杂、动态、开放、非完整环境的挑战。

西安交通大学人工智能与机器研究所副所长任鹏举在“UP·2021展锐线上生态峰会”上,分享了面向自主智能体的高效计算架构思考。

自主智能体需要全新计算架构

自主智能体在解放生产力的同时,对现有的计算架构也提出了新的设计要求。任鹏举表示,面向自主智能体的计算架构,需要结合系统、模型、算法和计算架构进行整体性的思考。从应用系统中发现问题,从模型和算法方面找到高效解决方案,通过计算架构的创新,部署在移动智能端,从而实现机器的自主智能。

对典型的自主智能体来说,它在不同信息的处理阶段有着不同的计算要求。根据OODA理论,自主智能体有观测、感知、决策和控制几个信息处理层次,。不同层次,对计算架构又有着不同的要求。

以无人驾驶车为例,一台无人驾驶车拥有丰富的传感器,包括:激光雷达,多个摄像机以及GPS、IMU惯导等。面向工业领域的AGV,也有丰富的传感器,包括:激光雷达、摄像机、深度传感器和单线激光雷达等。不同的传感器拥有不同的处理精度要求和帧率要求,需要完成传感器之间的数据融合。具体涉及到传感器的处理到感知、决策规划、人机交互以及底层硬件的控制。

传感器处理属于计算密集型,需要大量的向量和矩阵运算。在决策规划方面,是以控制为主的标量运算。在底层控制方面,又有条件执行、条件判断等等基本操作,因此异构计算是未来自主智能体的基本计算形态。

因此,移动智能体在不同的处理层次方面,对数据的处理类型有不同的要求。特别是在感知层,它涉及到大量的数据并行运算,往往会成为AMR信息处理的瓶颈。

新一代AI加速器硬件架构设计思路

基于这些思考,西安交大在今年4月份,完成了一款多核AI芯片处理器HIPU200的设计。该芯片采用28纳米的工艺流片,拥有13个计算核心,外加两个DDR控制器和PCIe,构成了4 x 4的2D-mesh的这样一个多核拓扑结构。整颗芯片可以提供13T的算力,在RISC-V的指令集基础上,进行了面向AI计算的向量和矩阵指令的扩展。并采用全局异步局部同步的时钟分配方式,,减少了clock tree的布局、布线的难度。

HIPU200还采用了自研的片上互连网络,支持核心的线性扩展和多核之间高效的传输。针对在神经网络计算中,涉及到的大量固定节拍和工作内容的向量和矩阵的运算,设计了聚合指令提高效率。聚合指令的扩展,减少了取指和译码的开销,同时提供了高效的数据级并行。

对于标量计算,HIPU200采用了分布式指令队列,包含两个ALU,一个乘除法运算单元和一个地址生成单元。向量和矩阵运算单元采用定序执行的方式,并根据对数据并行度的要求,采用了定制的片上向量存储器,为向量、矩阵计算单元(VMU)提供海量并发的数据支持。

同时,HIPU200设计了定制DMA单元,来完成数据结构的重组,以及DDR数据的高效访问。除了高效的计算单元以外,为了支持多核之间的协同,设计了高效的片上网络来完成核间的高效协同工作。

任鹏举提到,HIPU200的性能已经过了中国电子标准化研究院的第三方权威测试,并完成了无人驾驶的应用验证。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:cookiequ文章纠错

相关推荐

相关文章