1、具身智能技术为人形机器人最具突破性进展
具身智能是人工智能的一个发展领域,指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。具身智能机器人是“具身智能”的实体形态,需要同时具备“本体+环境+智能”三要素。通常是机器人等物理实体;二是要能与环境交互,能主动感知环境,能通过行动改变环境,还能在与环境的交互中不断学习和适应;三是要有智能的提升,不仅通过算法和计算实现智能,还通过本体与物理世界的交互来展现和发展智能。
具身智能技术的发展对人形机器人最具突破性意义。LLM 多模态大模型的发展给机器人产业带来新一轮的机遇,通用人工智能(AGI)给人形机器人带来巨大变革。智元机器人提出了具身智能 G1 到 G5 的演进路径和技术框架,并称智元当前处在 G2 和 G3 阶段。通用人工智(AGI)是一个长期的发展目标,就是在提供足够多、高质量的任务数据下,可以形成一个真正、全面的、从感知决策到执行大模型、拥有具身智能、将具备跨任务的泛化能力、开放场景的机器人技术能力。
2、软件突破成为人形机器人量产关键因素
人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、具有泛化性的具身智能及非常接近人的通用人工智能(机器人“大脑”)。从底层算法模型来看,机器人的软件可以分为大脑与小脑。
本体(硬件):负责行动,包含机器人的物理结构和执行器,它根据小脑层的运动规划,实际操作机器人的各个关节和组件,完成既定的任务。但是目前具身智能技术的发展不如人形机器人硬件成熟,也就成了现在人形机器人产业最大的卡点。
大脑:负责感知外界并模拟人类思维决策过程,主要职能是环境理解、智能交互与认知推理,基础是机器视觉、大语言模型的发展。
小脑:模仿生物进行复杂的运动控制,主要职能是运动控制、路径规划和步态平衡。
机器人“大脑”技术进步较快。伴随着 AI 大模型的发展,机器人大脑实现产业实现跨越式发展,智能化程度有望提升:
环境感知 : 基于机器视觉,发展相对成熟 。 2024 年 7 月 , Meta 推 出SegmentAnythingModel2(SAM2),SAM2 是首个用于实时、可提示的图像和视频对象分割的统一模型,它使视频分割体验发生了重大变化,并可在图像和视频应用程序中无缝使用。SAM2 在图像分割准确率方面超越了之前的功能,并且实现了比现有工作更好的视频分割性能,同时所需的交互时间为原来的 1/3。
认知决策:随着 LLM、GPT-4、视觉语言动作(VLA)等大模型的出现,让机器人对于现实世界中图像、文字、数据的理解进入新台阶。2023 年 7 月,谷歌 DeepMind 推出了全球首个控制机器人的视觉语言动作(VLA)模型。2023 年 3 月,OpenAI 发布 GPT4,2024 年 5 月,OpenAI 推出新旗舰模型 GPT-4o。
机器人“小脑”是当前技术瓶颈。具体看,“小脑”是由一系列算法和硬件设备组成的综合系统,包括传感器融合模块、动力学模型和控制器等。这些组件共同工作,制定运动策略,确保机器人动作的流畅性和稳定性。小脑部分发展的制约因素包括精细运动执行尚未有统一的底层算法和多场景泛化控制的数据采集。
当前机器人泛化控制的最大问题是数据量的缺乏,要采集真实人类社会各个场景的数据——开门、做饭、清洁等居家场景,或会拧螺丝的工业场景,进而理解物理世界的运作规则。对人形机器人来说,数据和场景是重点也是难点,数据量的缺乏导致小脑模型能力不足。综上,软件突破成为人形机器人量产关键因素。
其中,机器人“小脑”是当前技术瓶颈;得益于多模态大模型技术的进展,大脑领域的技术已经发展得非常成熟,不太存在数据匮乏的问题;而小脑则是目前具身智能的主要技术瓶颈。机器人硬件不再是本质约束条件,难点主要体现在 0-1 设计、规模制造及降本上。
3、人形机器人发展空间星辰大海,应用场景多元
从机器人发展形态上看,其演变的趋势是:从最传统的机器臂形式逐渐往自主移动机器人(ARM)、通用人形机器人方向发展。通用人形机器人通过“仿人”,达到更高的自由度,灵活性很强,存在巨大市场潜力和发展空间,是终极意义上的形态。
由于技术的持续发展,人形机器人渗透场景先 toB 后 toC,率先渗透地区或在欧美等高人力成本国家。2023 年 11 月 2 日,工信部发布《人形机器人创新发展指导意见》指出,加快拓展通用人形机器人应用场景:(1)危险、恶劣环境作业;(2)汽车、3C 等制造业产线深度应用;(3)医疗、家政、农业、物流等民生服务。
更多行业研究分析请参考思瀚产业研究院,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。