行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

摘要

成熟的广义操作系统是机器人行业从1-N的拐点。以手机和汽车为代表的终端产品操作系统经历了从简单控制系统升级到狭义操作系统,再升级为广义操作系统,最终推动了相关行业的蓬勃发展。在机器人线控系统完善后,机器人的操作系统经历了ABB、FANUK、KUKA、基于Linux或works,安川电机四大工业机器人巨头开发了闭源操作系统和ROS、在Android、Ubuntu等开源操作系统逐渐成熟的狭义操作系统时代,现在已经进入了基于ROS等开源系统的制造商构建全堆栈广义操作系统的时代。

智能大模型为机器人操作系统补充了最后一个拼图。智能大模型实现了机器人自主决策和自主学习的闭环,开启了端到端机器人发展的浪潮。智能大模型赋予机器人更强的任务泛化能力和更高的任务完成能力,推动机器人从PLC到SLC的转变,构建自学闭环。微软、谷歌、英伟达、李飞飞团队、特斯拉、科大讯飞、达瑞机器人等国内外科技巨头和科研机构竞相进入该局。

交互能力的提高和成本优化是机器人着陆的催化剂。特定的智能大型模型使用户可以用自然语言完成任务级编程,提高交互能力,开放应用场景空间;智能软件系统的高性能或成为替代机器人硬件高性能需求的重要解决方案,更低的成本预计将使人形机器人的价格进入大规模运输的“击球区”。

云计算和边缘计算保证了机器人大脑的高效运转。云计算是为机器人等终端设备提供计算能力的核心方法,云计算可以为人工智能提供计算能力、大模型与机器人的结合提供了强大的计算能力和数据存储空间,以及所需资源和算法支持的灵活性和可扩展性;边缘计算补充了云计算数据传输成本、延迟和安全的局限性,护送特定的智能人形机器人着陆。

在智能时代,机器人小脑-AI模块和配套开发平台迎来了重大升级。

许多制造商改进产品的主要方向是不断提高接收信息处理效率,提高嵌入代码的设计包容性,开发更多样化的套件。国际领先的制造商在原来的机器人人工智能芯片平台上做出了新的改进和创新:特斯拉发布了人形机器人Optimus将FSD芯片的应用从智能驾驶领域扩展到智能机器人领域;英伟达在Jetson 在orin系列平台的基础上,推出了Issac AMR等一系列智能机器人平台,继续巩固其竞争优势;高通RB6和RB5 基于原RB3平台,AMR平台拓展了AI+5G的联动应用功能,积极拥抱新的技术革命;英特尔将第二代脑神经拟态芯片Loihi2与HERO平台相结合,加速类脑感知的应用;AMDKria K26 SOM平台采用新的预购硬件加速方案,平台的灵活性和使用门槛大大降低。

英伟达Isaac、以讯飞机器人超脑平台为代表的新型机器人开发平台实现了一站式、端到端开发,或成为新时代机器人开发的新范式。

投资建议:机器人软件主要分为大脑和小脑两个领域,目标如下:

1)在大脑领域,布局大模型与机器人业务相结合的公司稀缺,如科大讯飞、中科创达、萤石网、柏楚电子、华依科技、芯动联科、汉王科技等;

2)在小脑领域,美格智能、广和通、移远通信、奥比中光、联创电子、柯力传感等机器人相关传感、AI模块等细分行业领导者处于领先竞争地位。

风险提示:市场竞争加剧,人形机器人技术发展低于预期。

1 机器人大脑:智能开放万亿蓝海市场

机器人行业已经进入了一个特定的智能时代。与传统的工业机器人、合作机器人相比,特定的智能机器人具有智能化程度高、工作场景限制小、能够独立规划复杂工作的特点。马斯克在2023年特斯拉股东大会预测,未来全球人类机器人数量预计将达到100亿至200亿台,人类机器人将开放万亿级蓝海市场。

智能大模型:人形机器人操作系统的最后一个拼图

机器人产业进入特定智能时代的核心驱动力是大模型的出现,成为真正的生产力。大型模型的能力非常符合机器人的需求。只要告诉机器人它想做什么,机器人就会理解它需要做什么,拆分任务动作,生成应用层控制指令,根据任务过程反馈纠正动作,最终完成人类交付的任务。整个过程基本上不需要或只需要少量人类的干预和确认,基本实现了机器人的独立运行。机器人应用工程师不需要掌握机器人的专业操作知识。

智能大模型:人形机器人操作系统的最后一个拼图

1.1 智能大模型:人形机器人操作系统的最后一个拼图

1.1.1 升级手机、汽车和机器人操作系统具有相同的历史魅力

回顾历史,以手机和汽车为代表的终端产品操作系统经历了从简单控制系统升级到狭义操作系统再升级到广义操作系统的升级过程。

智能大模型:人形机器人操作系统的最后一个拼图

控制系统是终端产品最基本的操作系统,主要通过预编程固定终端产品的功能。在汽车的分布式架构中,每个ECU都有一个独立的控制系统。以Molex汽车座椅控制模块为例,ECU的功能是水平、高度、旋转、腿支撑、肩部、侧翼、加热、通风、按摩等功能。

智能大模型:人形机器人操作系统的最后一个拼图

狭义操作系统是指操作系统核层的标准化,终端产品可以完成一些复杂的任务。操作系统的内核直接与硬件连接,并告知应用软件的要求,如过程管理、磁盘管理、任务调度、内存管理等。以智能汽车为例,狭义操作系统的出现实现了汽车系统的软硬件解耦。开发者可以专注于汽车服务、车辆控制、应用框架、应用程序、云服务等软件层的开发,实现驾驶舱交互、信息娱乐等应用,即ROM操作系统的开发。

智能大模型:人形机器人操作系统的最后一个拼图

狭义操作系统的出现使开发商能够考虑到应用程序开发的深度和效率,并反映出良好的着陆性能。根据德勤,从主机厂专注于自主研发或直接适应车载系统供应商的产品水平来看,更开放的策略制造商,特别是一些新兴的电动汽车品牌更倾向于深入拥抱合作,更多地与华为、斑马、百度、谷歌等科技企业合作,充分利用软件开发的生态资源和经验优势。

智能大模型:人形机器人操作系统的最后一个拼图

广义操作系统是指在狭义操作系统的基础上,提供统一的通信接口、通信能力和基本服务的操作系统。广义操作系统的实现可以构建一个开放、标准化、统一的开发平台。以苹果IOS系统为例,IOS系统是一个广泛的操作系统,实现了从底层硬件控制到应用开发的全堆栈标准化。开发人员可以使用各种标准化的IOS本地应用开发工具来实现高效的应用建设,如能调用各种软硬件基础设施能力的Xcode开发者工具包,能调用云服务的Xcode 更适合IOS系统的Cloud工具包、Swift编程语言等。

智能大模型:人形机器人操作系统的最后一个拼图

从简单的控制系统到狭义的操作系统,机器人操作系统已经完成了探索,正在向广义的操作系统迈进。早期机器人使用以PLC为代表的控制系统,只能完成固定功能;后续,ABB、KUKA等海外机器人巨头利用Works等核心构建机器人操作系统,使机器人能够加载多种算法和模块,如网络分布处理模块、机器人运动控制库、运行环境、智能算法库等,机器人开始具有感知、决策和行动能力;未来,以谷歌、特斯拉、英伟达等科技巨头为首的端到端智能操作系统,有望推动机器人实现“域融合”,成为新时代机器人操作系统的新范式。

智能大模型:人形机器人操作系统的最后一个拼图

1.1.2 机器人驱动基础设施

机器人控制系统主要涉及控制系统硬件、控制系统软件、控制系统通信三个方面。控制系统硬件是控制算法的实现平台,如单片机和PC机、工控机等。控制系统软件是在实时操作系统下编写控制算法。控制系统通信是运动控制器等部件的信息传输,如传感器数据需要传输给控制器、控制器指令需要传输给执行器等。目前主要控制总线有串口总线RS232/RS485、CAN、EtherCAT、PROFINET、PROFIBUS、SERCOS、Ethernet、Modbus、CC-Link、MECHATROLINK等,其中串口总线RS232/RS485、CAN、EtherCAT在机器人领域应用最广泛。

1)串行总线

串口,即COM口(cluster communication port ,串行通信端口)是指物理接口形式(硬件)。而TTL、RS-232、RS-485是指电平标准(电信号)。根据小米技术,这种通信方式通信接线简单,性价比高,但缺点是通信速度低,不能满足机器人的高动态控制。所以一般只能用于舵机制造的仿人机器人,如优必选的“悟空”机器人,ALPHA EBOT机器人等。

智能大模型:人形机器人操作系统的最后一个拼图

由于2019年发布的夜间巡逻机器人也采用了基于RS485总线的控制系统,RS485模块和接口插件解决了传统传动机构布线复杂的问题。

智能大模型:人形机器人操作系统的最后一个拼图

二、CAN总线

局域网总线控制器(CAN,Controller Area Network)串行通信协议总线用于实时应用,它可以用双绞线传输信号,是世界上应用最广泛的现场总线之一。在汽车行业,由于安全、舒适、方便、功耗低、成本低的要求,先后开发了各种电子控制系统。由于这些系统通信中使用的数据类型和对可靠性的要求不同,由多条总线组成的情况很多,线束的数量也增加了。适应“减少线束数量”、1986需要“通过多个LAN进行大量数据的高速通信” 德国电气商博世公司为汽车开发了CAN 通信协议。此后,CAN 通过ISO11898 及ISO11519 在欧洲,标准化已经成为汽车网络的标准协议。

此后,该协议的用途也扩展到其他自动化和工业应用程序。由于CAN的稳定性、大带宽和低成本,它也广泛应用于工业机器人和足球机器人领域。以足球机器人为例,控制器通过模型预测进行控制身体动力学控制可以通过CAN总线计算关节位置、关节速度和前馈力矩,并将其发送到每个关节电机驱动器。

根据小米技术,目前机器人采用的CAN协议主要分为标准CAN通信和CANOPEN协议两类。其中MIT 发布的Mini Cheetah四足机器人采用标准CAN通信。为了满足传输的数据精度和效率,团队将CAN总线的ID场扩展到数据场,使命令指令的发布和反馈数据的上传可以在一帧内完成。

智能大模型:人形机器人操作系统的最后一个拼图

CANOPEN协议 20 世纪 90 年代末,总部位于德国纽伦堡 CiA 组织——CAN-in-Automation,在 CAL(CAN Application Layer)在此基础上发展而来。CANOPEN总线是主从网络,即在 有一条CANOPEN总线负责管理 多个从站在CANOPEN网络中。CANOPEN主站以轮询的方式和 CANOPEN从站进行数据交换。例如,CANOPEN协议采用了北京理工大学“汇童”五代BHR-5仿人机器人。

智能大模型:人形机器人操作系统的最后一个拼图

3.EtherCAT总线

EtherCAT(以太网控制自动化技术)是以太网为基础的开放式现场总线系统。CAT的名称是控制自动化技术(Control Automation Technology)的缩写。EtherCAT是由德国Beckhoff公司开发的确定性工业以太网。EtherCAT具有强实时、高带宽、灵活的拓扑结构,适用于强耦合、非线性、强实时、大数据的仿人机器人系统。

Ethercat可以支持线形、树形和星形设备连接拓扑结构,物理介质可以选择100Base-TX标准以太网电缆或光缆。使用100Base-TX电缆的时间间距可达100m。整个网络最多可连接65535个设备。主从式环形结构由快速以太网全双工通信技术组成。

在传输原理方面,EtherCAT是一个主从模式的网络。EtherCAT通信由主站发起。当主站发出的数据帧从站点传输到站点时,从站点分析数据帧,每个站点从相应的报纸中读取输出数据,并将输入数据嵌入子报纸中。网段末端从站处理报文后,将报文转发回主站,主站捕获返回的报文并进行处理,完成通信过程。这种传输原理与地铁有些相似,即EtherCAT报纸包含大量不同的站点数据,在站点实施数据交换后,与其他以太网解决方案相比,传输效率有所提高。

仿生机器人自由度高,可达几十个。主控对关节控制信息量大,对总线带宽和实时性要求高。因此,EtherCAT有广泛的应用空间。以优秀的Walker机器人为例,Walker 具备 36 高性能伺服关节和力感、视觉、听觉、空间感知等综合感知系统,可实现行走平稳、快速、灵活、准确的操作。

智能大模型:人形机器人操作系统的最后一个拼图

小米的人形仿生机器人CyberOne于2022年8月正式亮相,行走速度可达3.6Km/h,EtherCAT也用于全身控制。

智能大模型:人形机器人操作系统的最后一个拼图

随着机器人智能化和结构复杂化的趋势,各子模块还需要信息集成、多维感知和协同运行,对控制总线的实时性、稳定性和高带宽提出了新的要求,为相关交换和接入设备制造商提供了新的机会。

1.1.3 四大机器人巨头引领狭义操作系统时代

目前,机器人操作系统分为两类:开源和闭源。KUKA是世界领先的机器人制造商、ABB等多自研闭源操作系统,开源操作系统分为Android、ROS、Ubuntu三大阵营。世界领先的工业机器人制造商通过选择合适的操作系统核心和自主开发的编程语言来构建闭源机器人操作系统,如KUKA、ABB选择Works,FANUC选择WindowsCE,安川电机选择Linux;安卓开源机器人操作系统,ROS、Ubuntu都选择Linux作为操作系统的内核。根据哈工智能官网,机器人操作系统的核心主要有以下几类:

1)Works:Works操作系统是美国Windriver于1983年设计开发的嵌入式实时操作系统(RTOS),它是Tornado嵌入式开发环境的关键组成部分。Works具有可切割的微核结构;高效的任务管理;灵活的任务间通信;微秒中断处理;支持POSIX1003.1b实时扩展标准;支持各种物理介质和标准、完整的TCP/IP网络协议等。  

2)WindowsCE:WindowsCE与Windows系列兼容性好,无疑是WindowsCE推广的一大优势。WindowsCE为手持设备和无线设备的动态应用程序和服务提供了一个功能丰富的操作系统平台。它可以在各种处理器系统结构上运行,通常适用于内存占用空间有一定限制的设备。  

3)嵌入式Linux:为了满足自己的应用,人们可以随意修改源代码。大部分遵循GPL,是开源代码和免费的。用户自己的系统可以稍加修改。只要懂Unix/Linux和C语言,就有庞大的开发人员群体,不需要专业人才。大量的硬件支持。嵌入式Linux和普通Linux没有本质区别,PC上使用的硬件嵌入式Linux几乎都支持。并且可以获得各种硬件驱动程序源代码,为用户编写自己的专有硬件驱动程序带来极大的便利。 

4)μC/OS-Ⅱ:μC/OS-Ⅱ它是著名的源代码公开的实时内核,专门为嵌入式应用设计,可用于8位、16位和32位单片机或数字信号处理器(DSP)。其主要特点是公开源代码、可移植性好、可固化、可剪切性、先进核心、可确定性等。

5)DSP/BIOS:DSP/BIOS是TI设计开发的实时多任务操作系统的核心,是TICodecomposerStudioTM开发工具的组成部分之一。DSP/BIOS主要由多线程实时内核三部分组成;实时分析工具;芯片支持库。采用实时操作系统开发程序,方便复杂DSP程序的快速开发。 

智能大模型:人形机器人操作系统的最后一个拼图

ABB通过Robotware软件系统(操作系统和选件)的自主研究,实现机器人的编程、调试、操作和监控。OSBobotWare系列软件包括OSBOTWare系列软件包括、对各种功能进行进一步微调的功能选择、生产应用技能扩展包和选项组。在使用过程中,用户主要通过ABB开发的RAPID语言编程控制ABB机器人。RAPID语言区分任务模块和系统程序模块。任务模块被视为任务/应用程序的一部分,系统程序模块被视为系统的一部分。系统启动时,系统程序模块自动加载到任务缓冲区,系统中常用的特定数据对象(工具、焊接数据、移动数据等。)旨在(预)定义、接口(打印机、日志文件)等。

智能大模型:人形机器人操作系统的最后一个拼图

ABB将Robotware软件系统与各种软硬件相结合,构建机器人控制系统。以ABBIRC5机器人控制系统为例,除了软件系统外,还需要模拟平台Robotstudio、硬件模块,如操作员、控制模块、驱动模块、跟踪/定位操作员等。

智能大模型:人形机器人操作系统的最后一个拼图

KUKA拥有面向工业机器人的通用机器人操作系统iiQKA.Sunnrisee,面向轻型机器人.OS:

1) iiQKA.OS以Linux为核心,拥有强大的开源生态支持和广泛的硬件兼容性,从可以单独开发和改进的模块化和容器化元素到稳定一致的应用程序编程接口 (API) 和响应性,再到支持分散管理的数据镜像,可以保证用户使用所有设备的数据一致性;

2) Sunrise.操作系统支持编辑器对机器人的工作过程进行图形建模,并以方框的形式显示 JAVA 程序代码,这样规划者就可以在没有编程知识的情况下显示流程,也可以通过内部建造。 JAVA Sunriseee使用数据库、方框和对象模板.OS 工具箱获取可立即使用的兼容流程知识。

智能大模型:人形机器人操作系统的最后一个拼图

安川发布i³ Engineer平台在自动化解决方案的基础上增加了“数字数据管理”,提供伺服、变频器、机器人等机电一体化技术和产品,以及自动化等解决方案。根据AGV网,i³ 基于Linux操作系统的开发,Engineer具有良好的开放性、灵活性和可扩展性,支持符合IEC61131-3标准的编程语言和PLCopen功能块,以及脚本语言C#、C++、Python或Matlab Simulink。根据安川电机官网,该平台通过 YASKAWA Cockpit 实时收集和积累,并根据需要连接到上位系统 AI 学习和大数据分析,然后反馈其学习模型或分析结果,以改变生产模式。

智能大模型:人形机器人操作系统的最后一个拼图

1.1.4 成熟的开源操作系统为广义操作系统时代奠定了基础

机器人主流开源操作系统ROS、安卓、Ubuntu三大阵营。ROS系列操作系统是专门为机器人设计的开源框架(本质上更像SDK,可以在Ubuntu和Android平台上运行),包含2000多个常用的机器人平台软件包,适合需要应用复杂算法的场景;Android有一个成熟的开发者平台,但机器人独家算法不如ROS,更适合普通交互场景;Ubuntu是一个物联网操作系统,为ROS等开源项目提供稳定的支持,如小米Cyberdog机器人选择Ubuntu+ROS集成的开发环境。

智能大模型:人形机器人操作系统的最后一个拼图

ROS系列操作系统的核心是简化在各种机器人平台上创建复杂而强大的机器人行为的任务,即不重复轮子,已更新到ROS 2。根据苏州工业机器人创新空间,ROS是一套开源软件框架和工具集,可以安装在现有的操作系统上,帮助开发人员建立机器人应用程序,提供硬件抽象、设备驱动、函数库、可视化工具、信息传输和软件包管理。ROS1.0版于2010年发布,是基于斯坦福大学PR2机器人开发的一系列机器人相关基础软随后ROS版本频繁迭代件包。

智能大模型:人形机器人操作系统的最后一个拼图

ROS操作系统由通信机制、开发工具、应用功能、生态系统四部分组成,具有模块化、跨平台、开源、可扩展的特点。据汇天科技报道,上海人工智能产业协会 、ROS是一个具有节点的分布式通信框架(Node)概念表示一个应用程序,通过事先定义不同node之间格式的消息(Topic),服务(Service),动作(Action)实现连接,帮助程序进程之间更方便地通信, 因为ROS本身是基于消息机制的,开发人员可以根据功能将软件分解为每个模块。每个模块只负责通过消息相关的方式读取和分发消息;许多著名的机器人开源库,如基于quaternion的坐标转换、3D点云处理驱动程序、定位算法SLAM等,都是基于ROS开发的开源贡献者。开发人员可以根据自己的需要选择合适的包装并安装在自己的工作空间中,或者创建你自己的包来实现你想要的功能。

智能大模型:人形机器人操作系统的最后一个拼图

ROS可以与其他技术或平台进行集成和合作,并在各种技术巨头的相关产品或平台上得到充分实施。汇天科技的代表性案例包括:

1)微软Azure云服务:提供虚拟机、存储、数据库、分析、人工智能等各种云计算服务平台。微软Azure云服务与ROS2机器人操作系统深度集成,提供Azure IoT Hub for ROS2服务可以实现ROS2节点与云服务之间的双向通信,并提供一些管理和监控功能。开发者可以利用云资源来提高ROS2机器人应用程序的性能和功能。

2)英特尔Openvino工具套件:提供图像分类、目标检测、人脸识别、姿态估计等各种视觉处理功能的平台。英特尔Openvino工具套件与ROS2机器人操作系统兼容优化,提供了ros2_openvino_toolkit的包可以实现ROS2节点和OpenVINO模型之间的无缝集成。开发人员可以使用OpenVINO模型来提高ROS2机器人应用程序的视觉处理能力,并提供一些示例和教程。

3)亚马逊AWS RoboMaker:提供模拟、测试、部署、监控等各种机器人开发服务的平台。亚马逊AWS Robomaker完全支持ROS2机器人操作系统,并提供AWS RoboMaker ROS2 Extension服务可以简单地连接ROS2节点和AWS服务,并提供一些工具和库函数。开发人员可以使用AWS服务来提高ROS2机器人应用程序的开发和运行效率。

智能大模型:人形机器人操作系统的最后一个拼图

Ubuntu对ROS等开源项目表现出良好的兼容性,官方持续开发更适合机器人开发。Ubuntu是一个开源操作系统,适用于桌面、云和物联网设备(包括机器人),支持ROS等多个重要的开源机器人项目、PX4、Autoware、Open-CV、PCL等。Ubuntu专门为物联网设备和机器人等分散的计算环境开发了Ubuntu,可以为设备的完整软件管理提供一套完整的基础设施,包括独立的操作系统、核心和应用程序、事务和增量更新,以及安全限制、全磁盘加密等安全功能。与此同时,Ubuntu开发了Snap和Snapcraft容器化软件包,与其它容器技术相比,具有更高的构造和运行性能。开箱即用的 Snap 可以提供严格限制依赖所需的所有接口,也可以提供访问主机磁盘和权限资源的安全接口。

智能大模型:人形机器人操作系统的最后一个拼图

Android更适用于机器人领域的普通交互场景,复杂算法场景ROS(ROS+Ubuntu)或者是更好的选择。根据Github,使用Android开发机器人并不像在 Ubuntu +开发框架广泛应用于ROS,实验平台的硬件接口需要重新设计和编制硬件驱动程序 Linux 只有在核心中编译和识别,为新编译的驱动设计和编写硬件驱动层和硬件访问服务层的实现程序,才能使 Android 这些硬件可以在应用程序中使用;如果产品是重交互、轻路径、人脸识别或人工智能,Android更好;但是,如果产品有更多的机会使用一些复杂的算法, Ubuntu+ROS 或者是更好的选择。

智能大模型:人形机器人操作系统的最后一个拼图

1.1.5 基于ROS等开源系统的广义操作系统已经实施

ROS等开源操作系统缺乏智能化。基于ROS等开源操作系统构建全堆栈广义操作系统是目前一种强大的着陆方式。根据智能事物和地平线,ROS在智能机器人开发中面临着一系列挑战:

1) ROS的AI智能功能相对缺乏:在ROS中,可以调用的大部分都像SLAM、Navigation、MoveIt、TF、RVIZ、Gazebo缺乏相关功能包、工具链等技术支持,以解决机器人的运动规划、基本模拟和可视化功能(如基于视觉算法和导航框架的组合);

2) ROS的代码质量参差不齐:ROS的代码是开源贡献。许多代码没有经过严格审查,代码质量不稳定,需要进一步优化和裁剪;

3) ROS自动化测试工具相对缺乏:ROS缺乏整体系统层面的测试,如运行效果、成功率、覆盖率等。;

4) ROS硬件兼容性有限:ROS有时候会出现在ARM平台AI算法运行不好的情况下,X86平台功耗过高需要优化;

5) 机器人应用程序没有标准化的设计、部署、管理、操作和维护方法或工具。

智能大模型:人形机器人操作系统的最后一个拼图

基于ROS的地平线构建TogetheROS™.Bot全栈机器人操作系统。TROS地平线.与传统ROS相比,B除了同样的开源和建设开发者社区外,还具有以下优势:

1) 深度优化外部配件(传感器等):在配件层面,地平线优化了许多常见的外围配件兼容性,例如一些RGB-D、IMU、相机不仅能达到更好的时间戳同步效果,还能达到更好的数据传输效果。

2) 提高软硬协同能力:TROS.B对智能芯片进行了更底层的优化,如ROS通信问题,结合硬件实时通信保证,减少了大量资源消耗;如出版商、订阅者占用CPU的资源问题也得到了优化。

对于VIO、SLAM、集成包装语音交互、3D感知等常用算法,其运行效果优于直接ROS中的许多开源算法。

智能大模型:人形机器人操作系统的最后一个拼图

ROSA必须实现跨软件平台、跨硬件平台、云平台等重大功能拓展。与ROS相比,ROSA的共同点是它可以兼容Linux,但ROS不能完全兼容Android;此外,机器人能力API、SPA标准统一、ROSA可以兼容是否支持OTA升级、大数据、广域网即时通信、机器人远程诊断和传输加密存储加密组件,但是ROS没有。ROSA为普通业务软件开发人员提供机器人能力API,纯业务软件开发人员可以通过调用抽象API满足应用场景的业务开发;为机器人硬件制造商提供标准化的机器人SPI,使硬件制造商在定制自己的配置时能够快速实现自制SPI。

智能大模型:人形机器人操作系统的最后一个拼图

AIA必须选择ROSA、运动能力、表现力、云能力、任务管理等模块表现亮眼:

1)人工智能模块:ROSA提供调用的API。调用相应的API后,请求将通过跨过程通信直接导入架构中的服务。对于需要大型模型的API,很难在机器人本体上运行,可以与最佳选择的AI云联动;

2)运动能力模块:整合舵机控制技术、运动规划技术、导航技术,结合软件平台软件协议和ROS兼容性,ROSA提供呼叫API,业务软件开发人员可以快速使用API控制机器人实现业务驱动机器人软件开发;

3)表达模块:支持多屏幕输出机器人表情、照明和舞蹈安排服务。开发人员可以很容易地让机器人在指定屏幕上以更高的性能显示所需的机器人表情和舞蹈;

4)云能力模块:优选云服务包括基本云能力组件,如账号系统、信息通信、远程诊断、机器人自升级、行为分析等;

5)任务管理:自主研发解决机器人多任务多资源冲突的模块,通过规则定义解决各业务冲突的行为和优先级,非常方便。

1.1.6 智能开端到端机器人操作系统的浪潮

具体智能是指机器人通过学习和进化物理世界和数字世界来实现理解世界、互动和完成任务的目标。根据智慧,具体智能需要四个核心要素:

1) 本体:通常是具有物理实体的机器人,作为实际执行者,是在物理或虚拟世界中感知和执行任务的机构;

2) 智能主体:智能主体负责感知、理解、决策和控制的核心工作。随着大模型的发展,结合视觉等传感器的复杂多模式模型已成为新一代智能主体的趋势;

3) 数据:当前LLM通常需要web-scale级数据来驱动基本的预训练过程,而智能场景更加复杂和多样化,导致环境和任务多变,以及围绕复杂任务链的规划和决策控制数据;

4) 学习和进化结构:智能身体适应新环境,学习新知识,通过与物理世界(虚拟或真实)的互动强化新的解决问题的方法。例如,英伟达的元宇宙开发平台Omniverse构建了物理模拟的虚拟世界,加速了智能身体的进化。

在智能时代,机器人已经成为一个由“本体”和“智能本体”耦合而成的智能系统,可以在复杂的环境中执行任务。根据高科技机器人,智能机器人可以理解人类语言,然后分解任务,规划子任务,识别移动中的物体,与环境互动,最终完成相应的任务。目前,许多研究人员试图将多模态大语言模型与机器人结合起来,通过联合训练图像、文本和特定数据,引入多模态输入,增强模型对真实对象的理解,帮助机器人处理特定的推理任务。

智能大模型:人形机器人操作系统的最后一个拼图

智能机器人操作系统有望推动人机交互革命和人形机器人商业化进程,成为国内外科技巨头和科研机构的战略家必争之地:

1) 微软:发表论文《ChatGPT for Robotics》一系列论文探索了GPT控制机器人的使用,微软建立了高级机器人API或函数库(技能库)。用户使用自然语言描述需求后,GPT灵活选择现有的API或自编程来完成任务;

2) 谷歌:连续发布Palm-E、RoboCat、RT-1、RT-2.探索不同智能机器人操作系统的技术路线,包括使用真实数据训练的VLA路线和通过合成数据训练的路线;

3) 英伟达:发布VIMA、除了端到端的机器人控制外,英伟达还将智能大模型与Omniverse数字孪生平台相结合,实现更好的训练和测试效果;

4) 李飞飞团队:通过3D发布VoxPoser系统 Value Map+LLM+VLM的组合,根据用户的自然语言直接输出运动轨迹控制机来完成任务;

5) 特斯拉:Tesla Optimus可以完成物品分拣、瑜伽等操作,其神经网络训练完全端到端,即直接从视频输入中获取信息,输出控制指令;

6) 国内团队:科大讯飞、达瑞机器人、阿里达摩院、智远机器人、宇树科技等国内厂商推出了智能系统或机器人产品。

智能大模型:人形机器人操作系统的最后一个拼图

微软:精编机器人技能库,追求零样本训练

微软在论文《ChatGPT for Robotics》提出了其机器人操作系统的基本思路:

1)微软提出定义一套高级机器人 API 或函数库,针对特定机器人的特异性,设计为映射到机器人控制堆栈或感知库中现有的低级实现。为了确保高级 API 它的可理解性和可用性,特别重要的是赋予函数一个具有描述性的名称,这有助于 ChatGPT 推断这些函数的预期行为;

2)微软为 ChatGPT 创建一个文本提示,它应该清楚地描述任务目标,并列出可以在高级数据库中使用的函数。此外,该提示还可以包括任何相关任务的限制 ChatGPT 生成答案时应遵循的指导原则,如特定编码语言的要求或使用辅助分析元素的建议;

3)用户可以直接检查生成的代码输出或使用模拟器 ChatGPT 如有必要,用户可以使用自然语言提供反馈,以评估答案的质量和安全性,并提供任何必要的改进建议;

4)当用户对解决方案感到满意时,最终代码可以部署到目标机器人上,以实现所需的功能。这一过程的成功实施将取决于先进性 API 清晰的设计和文本提示,以及用户与开发团队之间的有效沟通与合作。

智能大模型:人形机器人操作系统的最后一个拼图

微软设计了一个特殊的提示模板,可以将用户需求和工作环境的具体描述合并到模板中,并用于生成ChatGPT响应(有序)。该技术专注于机器人动作序列的生成(即“做什么”),避免了多余的语言指令来获取视觉和物理参数(即“如何做”),如如何捕获、提升和使用姿势。

智能大模型:人形机器人操作系统的最后一个拼图

微软机器人操作系统具有三个特点:多模态学习、常态感知和任务模型编译器与自下而上的自我技能细化路径相结合:

1)多模式学习:为了更好地理解人类示范,微软引入了多模式(语言和视觉)学习,如语音描述整个任务过程,以及系统应注意(即焦点),视觉信息可以提供如何执行任务,如人体姿势和捕获策略,系统还可以要求用户重复一些描述不清楚的地方;

2)常识感知:人类示范包括各种隐含技能,如高效任务操作所需的捕获类型和身体姿势。这些技能通常不需要明确教授,因为它们是许多用户的常识。微软确定了一组隐含但对任务执行至关重要的技能库,并将其定义为自上而下的知识。这些技能库从示范中识别出来,从而实现了强大的LFO(Learning from Observation);

为了实现稳定的机器人执行,微软将任务模型编译器与自下而上的自我技能细化路径相结合,以加强学习。任务模型编译器将任务模型转换为机器人命令,然后通过强化学习细化这些初始命令,无需机器人相关编码,即可实现所有任务的精确执行。

智能大模型:人形机器人操作系统的最后一个拼图

谷歌:发布RT-X+RoboCat,Imagenet在机器人领域的时刻

谷歌发布的RT-X大型模型具有很强的任务泛化能力和任务成功率,是过去机器人大型模型技术研究的黄金交点。谷歌机器人结合相关论文和redbot的解释,最近进行了四次重大升级:

1)RT-1:主体是预训练的视觉模型和用解释器处理的语言指令,两部分通过transformer架构输出机器人的动作指令。学习范式是模仿学习。训练数据是操纵移动机械臂在谷歌实验室两个厨房环境记录中完成抓取和放置动作时的记录。数据包括文本指令、机器人视觉图像、每帧图像对应的机器人动作指令(底盘速度、机械臂末端速度)等。由于数据相对有限,RT-1只能接受数据库中的指令,指令的基本结构是“行动” + 目标物体 + “目标位置”,这些基本结构可以在RT-1数据库中相互交换、排列和组合,但如果超出这个范围,RT-1就无能为力。

智能大模型:人形机器人操作系统的最后一个拼图

RT-2放弃了RT-1的设计,采用了利用网络上海大量图形数据进行预训练的图形模型。这些模型的参数可以达到55B,远远超过RT-1的35M。训练这些图形模型来回答关于图片的问题,最初的输出是文本,RT-2创造性地重新编码机器人动作,使编码为“文本”的机器人动作作为图形模型的输出。在不改变原始图形模型结构的情况下,使用RT-1数据库进行finetune预训练的图形模型获得RT-2模型,然而,“动作”的来源仍然局限于RT-1数据库的抓取、移动和放置三个动作。

智能大模型:人形机器人操作系统的最后一个拼图

相关阅读
  • 光伏技术百花齐放设备制造商下场“押宝”

    光伏技术百花齐放设备制造商下场“押宝”

    一家设备制造商感慨地说:“做设备这一行,以后再好也很难像2023年那样,一年做三年的工作。”在业内人士看来,2023年无疑是光伏设备行业的“最佳一年”。随着去年下半年产能过剩问题的突出,整个光伏产业链都坐在一条船上,如何...

    2024-01-09 15:26:11
  • 军工:台湾选举投票日临近 朝鲜炮击军工方向,下周最值得关注的

    军工:台湾选举投票日临近 朝鲜炮击军工方向,下周最值得关注的

    ①银发经济-国常会:研究发展银发经济、改善老年人福祉的政策措施(澳洋健康、启迪药业、延华智能、智胜信息、亚华电子等)。);②大金融-地方金融监管体制改革:近年来,10多个省召开会议,部署和动员体制改革,地方金融监管体制...

    2024-01-07 15:25:53
  • a股已经病入膏肓,但能治病的人却漠不关心

    a股已经病入膏肓,但能治病的人却漠不关心

    a股已经病入膏肓,但能治病的人却漠不关心。如果他们不想消除积弊,怎么能不让人心寒呢?a股投资者已经觉醒,但监管机构已经自满,甚至不敢停止IPO。 然而,a股的垃圾不仅仅是监管的锅。中国现在遇到了很大的困难。公信力、...

    2024-01-07 15:25:54
  • 刘晓龙:美国降息、熊市持续时间过长、国内企业在各个方向取得进

    刘晓龙:美国降息、熊市持续时间过长、国内企业在各个方向取得进

    近日,聚明投资董事长、投资总监刘晓龙就2024年市场、医药、军工等行业分享了自己的最新观点。2007年至2017年,刘晓龙在广发基金从研究员到基金经理再到投资总监,管理规模最高达近400亿元。他的代表作广发行业多次获得金...

    2024-01-09 15:25:41
  • 收盘跌破2882,实行退潮策略

    收盘跌破2882,实行退潮策略

    首先,这块板的地位是最高的。在交易限额的这个时候,预计大概率可以密封到收盘,或者即使在盘中开盘,也有很大概率可以密封,以确保当天收盘时没有风险。如果在关闭板块时表现出强烈的驱动力,并推动其他龙1龙2紧跟交易限额,那么...

    2024-01-08 18:25:43

本文智能大模型:人形机器人操作系统的最后一个拼图由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻