1、3D 点云数据在机器人大模型中的优势
随着机器人技术的不断发展,视觉感知作为机器人与环境交互的关键能力,正从传统的 2D 视觉向更先进的 3D 视觉转变。通常,机器人视觉主要使用 2D 图像,因为它们简单并且 2D 基础模型具有相当大的进步。尽管 RGB 图像无处不在,但它们往往无法准确捕捉环境的 3D 结构,而这对于精确执行动作至关重要。3D 点云数据作为一种能够提供丰富空间信息的观测形式,在机器人学习领域展现出巨大潜力。
(1)增强空间推理能力,提升任务成功率
3D 点云数据在提升机器人任务成功率方面展现出显著优势。实验表明,基于点云的方法在成功率和平均排名上超越了 RGB 和 RGB-D 方法,无论从头开始训练还是利用预训练,都能展现出更强的性能和泛化能力。例如,在 OBSBench 基准测试中,点云方法在多个任务中表现卓越,在不同几何和视觉条件下均表现出了良好的泛化能力。
将 3D 点云数据注入到预训练的 VLA 模型中,能够为模型提供更全面的空间信息,使机器人能够更好地理解和感知环境中的物体位置、距离和形状等。这种能力使得机器人在执行任务时能够做出更准确的决策和动作规划,解决了 2D 模型在空间感知上的局限性,提高了任务的成功率。与传统的 2D VLA 模型相比,PointVLA 能够利用 3D 点云数据准确感知物体的实际位置和高度,从而在面对不同高度的桌子或物体时,做出相应的调整动作,成功完成任务,如在“place bread”任务中,PointVLA 能够适应训练数据中未见过的更高桌面高度,而 2D 模型则因无法准确感知高度而失败。这说明 3D 点云数据为模型提供了更精准的深度感知和空间定位能力,有助于机器人更精确地操作物体,提高任务的成功率。
(2) 提高少样本多任务学习能力
PointVLA 在仅有少量训练样本的情况下,成功完成了多个不同的任务。这得益于点云数据提供的丰富信息,使得模型能够更有效地利用有限的样本进行学习和泛化,适应多样的任务场景,降低了数据采集和训练的成本。在真实世界的实验中,PointVLA 在仅使用 20 个演示样本的四个任务上均取得了比其他基线模型更高的平均成功率,验证了其在少样本多任务学习场景下的优势。
(3) 具备实际与照片区分能力
PointVLA 能够区分真实物体和其照片,避免因误将照片当作真实物体而导致的安全隐患和操作错误。这一优势是基于 3D 点云数据实现的,因为点云数据能够提供物体的深度和空间信息,使机器人能够准确判断物体的真实性,提高系统的安全性和可靠性。在真实与照片区分实验中,PointVLA 能够准确识别出照片中的物体并非真实存在,不会对照片中的物体进行错误操作,而传统的 2D 模型则会出现无法区分的情况。
实景与照片辨别的实验装置
资料来源:Li, C., Wen, J., Peng, Y., Peng, Y., Feng, F., & Zhu, Y. (2025). 《PointVLA: Injecting the 3D Worldinto Vision-Language-Action Models》.,民生证券研究院
(4)增强泛化能力
3D 点云数据在不同的相机视角、光照条件、视觉外观变化下展现出显著更强的鲁棒性。实验结果显示,在相机动态变化的实验中,基于点云的方法在不同视角下的平均成功率明显高于其他方法,表明其对相机视角变化具有更强的适应性。在视觉外观变化的实验中,点云方法在不同光照强度、噪声水平和背景颜色等条件下的性能也优于其他观测空间,显示出更好的泛化能力。此外,在长时域打包任务中,PointVLA 在平均成功长度上超过了其他基线模型,进一步证明了其在复杂动态环境中的良好性能和泛化能力。
综上所述,3D 点云数据在机器人学习中展现出多方面的显著优势。从提升任务成功率到增强空间推理能力,从提高少样本多任务学习能力到具备实际与照片区分能力,再到增强泛化能力、提高高度适应性,3D 点云数据都为机器人模型带来了质的飞跃。通过合理利用 3D 点云数据,机器人能够更深入地理解环境、更准确地感知物体、更高效地完成任务,为机器人的智能化发展提供了有力的支持。未来,随着相关技术的进一步发展和应用,3D 点云数据在机器人领域的应用前景将更加广阔。
2、机器人视觉图像数据获取与 3D 传感器技术应用
(1)机器人视觉数据获取方式与形式
机器人视觉系统的核心在于通过传感器获取环境信息,并将其转化为可处理的数据形式。近年来,随着 3D 视觉传感器技术的突破,数据采集方式逐渐向高精度、多模态方向发展。数据来源与采集工具包括多模态传感器集成、开源数据集与仿真平台。主流机器人厂商(如宇树、优必选)普遍采用 3D 视觉传感器(如 RGB-D 相机、激光雷达)结合触觉、惯性测量单元(IMU)等多模态传感器,以全面捕捉环境信息。
例如,宇树 H1 机器人搭载的大疆览沃 Mid-360 激光雷达通过多线扫描生成高精度环境模型,用于导航与动作规划。优必选工业机器人则通过多目立体视觉与激光雷达结合,平衡成本与精度,实现复杂工业场景下的协同作业。开源数据集为算法训练提供了标准化测试环境。例如,OpenLORIS-Object数据集通过 RGB-D 摄像头在真实环境中采集包含光照变化、遮挡、复杂背景等挑战性场景的数据,支持终身学习算法的验证。《深圳市具身智能机器人技术创新与产业发展行动计划(2025-2027 年)》提出构建跨本体多样性开源数据集,推动具身数据采集标准化。
(2)主要的数据形式与特征
主要的数据形式有 3D 点云与深度图、RGB-D 图像等。3D 视觉传感器(如结构光、ToF、激光雷达)生成的点云数据可精确还原物体三维结构。宇树 H1 的激光雷达通过 360° 全景深度感知技术,实时构建环境模型,支持动态环境下的稳定动作。奥比中光的 3D 视觉传感器被用于宇树机器人,提供高精度点云数据,确保操作的精准性。
结合颜色与深度信息的 RGB-D 数据是机器人视觉的主流输入形式。优必选工业机器人通过此类数据实现车门锁扣检测、安全带功能测试等复杂任务,检测精度达到 0.5mm。多模态传感器融合成为趋势。戴盟机器人提出通过触觉外骨骼采集毫米级运动追踪数据,构建视觉 - 触觉 - 语言 - 动作(VTLA)大模型,提升灵巧操作能力。深圳行动计划明确支持多模态感知技术攻关,推动触觉 - 视觉融合算法研发。
(3)视觉数据驱动的机器人训练流程
从数据采集到动作生成,机器人训练流程可分为数据采集与预处理、算法训练与优化、部署与实时控制几个阶段。宇树 H1 采用高帧率(100Hz 以上)ToF 传感器与惯性导航系统,实时捕捉运动轨迹;优必选通过工业场景实训积累流水线操作数据。
针对光照变化、遮挡等问题,采用合成数据(如 OpenLORIS 的多难度级别样本)扩充训练集,提升模型鲁棒性。训练流程上,宇树通过 AI 强化学习训练舞蹈动作,使机器人自主迭代动作稳定性;OpenLORIS 数据集支持 9 种终身学习算法评估,解决灾难性遗忘问题。 VTLA 大模型整合视觉、触觉与语言指令等通过高精度触觉数据优化抓取力度与姿态。深圳行动计划支持具身智能基座大模型研发,推动跨场景任务处理。优必选机器人将检测结果实时上传至工厂智能管理系统,依赖 5G 网络确保数据同步,并通过在线学习(如进厂实训)持续更新模型,适应产线变化。
(4)3D 视觉传感器在机器人中的核心作用
3D 视觉传感器已成为人形机器人 “感知 - 决策 - 执行” 链路的核心,其重要性体现在环境感知与建模、动作规划与执行、市场驱动与技术趋势几方面。传统 2D 视觉难以应对复杂三维场景,而 3D 传感器通过深度信息增强环境理解。优必选机器人通过语义视觉导航技术提取高层语义信息(如车间设备布局),实现自主任务调度。
宇树 H1 的激光雷达结合 3D SLAM 算法,实时调整关节扭矩(最高达 360 N・m),确保动态平衡。3D 数据为机器人提供精确的空间坐标,优化路径规划。在柔性装配场景中,优必选机器人利用 3D 视觉识别遮挡条件下的汽车密封条安装位,结合仿人五指手完成精细化操作。宇树 H1 通过 AI 强化学习训练跳跃、舞蹈等动作,依赖 3D激光 SLAM 实现动作的稳定性。
据深圳《具身智能机器人行动计划》,到 2027 年具身智能机器人关联产业规模将达 1000 亿元,3D 视觉传感器需求持续增长。多传感器融合成主流,例如优必选 Walker X 采用多目立体视觉与激光雷达结合,波士顿动力 Spot 机器人依赖 ToF 技术实现动态避障。
3、3D 传感器算法框架
(1) Intel RealSense:软件定义的多模态开源框架
Intel RealSense 的算法框架以开源 SDK 2.0(librealsense)为核心,通过软件驱动实现对结构光、双目视觉、ToF 等多模态硬件的统一管理,其核心优势在于跨平台兼容性与灵活的生态整合。在结构光技术方面,D400 系列传感器通过红外激光器投射随机散斑图案,相机采集变形后的散斑图像,利用相位位移法解算深度,计算像素级相位偏移,结合相机与投影仪标定参数完成三角测量,实现亚毫米级精度(如 D435i 在 0.3-2 米范围内深度误差< 1mm),但该过程依赖上位机算力完成相位解码与深度图生成。
双目视觉方案(如 D435if)采用主动双目技术,通过两个基线约 5cm 的摄像头采集图像,运用半全局匹配(SGM)算法计算视差,结合散斑投射增强低纹理场景的匹配成功率,适合动态环境下的实时定位与建图,其算法框架通过扩展卡尔曼滤波(EKF)融合 IMU 数据,补偿运动畸变并提升位姿估计精度。ToF 模块(如 L515)则采用间接飞行时间法,发射高频正弦调制光,通过正交解调计算相位差以解算距离,结合多频调制技术消除相位模糊,支持 0.5-10 米中远距离检测,适合仓储机器人避障等场景。
Intel RealSense 整个框架支持 Windows、Linux、Android 等系统,与 ROS、TensorFlow 等主流框架深度集成,开发者可通过统一接口获取预处理后的深度、彩色与 IMU 数据,快速实现 AR 交互、室内导航等应用,但在户外强光环境中需依赖主动光源维持性能,且复杂场景下对上位机算力有较高要求。
(2)奥比中光:硬件级整合的场景化定制框架
奥比中光的 3D 传感器算法框架以自研 MX 系列芯片(如 MX6800)为核心构建起 “传感器-芯片-算法” 垂直整合的闭环体系,其核心竞争力源于硬件级深度处理与多模态融合技术的深度协同。MX6800 芯片内置结构光解码、双目匹配及多模态数据同步等核心模块,在结构光技术中采用格雷码与四步相移混合编码方案,通过单帧图像即可完成全局唯一编码与亚像素级相位解算——格雷码解决遮挡区域的编码唯一性问题,四步相移法结合多频外差技术消除相位模糊,最终通过三角测量生成高精度深度图,在0.1-5 米范围内精度可达 0.1mm,解码速度较纯软件方案提升 2 倍且功耗降低60%。
双目视觉方案中,芯片集成 Census 变换引导滤波优化的 SGM 算法,通过像素灰度排序编码减少光照影响,结合引导滤波保留边缘细节,使低纹理表面匹配成功率提升 30%,并利用 IMU 预积分实时补偿运动畸变,支持高速移动场景下的稳定避障。针对中远距离检测,Gemini 2 XL 等型号通过芯片级同步技术整合 iToF与结构光,远距离由 iToF 提供粗粒度深度,近距离依赖结构光补充高频细节,解决单一 ToF 在近距离的相位模糊问题,实现 0.1-20 米全量程覆盖。
在场景化应用中,奥比中光通过硬件级优化与算法定制展现出强大的环境适应性:工业检测领域,Gemini 330 系列的动态激光功率调节技术可在 20K Lux 强光下维持深度稳定性,亚像素边缘检测算法能识别 0.01mm 级缺陷,配合点云配准实现毫米级精度的 3D 形貌重建;户外场景中,Gemini 335Lg 的窄带滤光片与Census 变换技术无需主动光源即可在 100K Lux 强光下工作,多曝光融合算法将强逆光场景的深度图空洞率控制在 5%以下;消费电子领域,Astra 2 系列的硬件D2C 对齐技术通过内置空间变换矩阵实现深度与彩色图像素级配准,人体骨架识别算法基于 CNN 实时检测 15 个关节点,延迟低于 20ms,满足 AR 交互的低延迟需求。
(3)核心技术差异与场景适配性分析
两者在技术路线与市场定位上形成显著互补。硬件架构层面,Intel RealSense依赖软件驱动与外部算力,适合灵活开发与快速原型验证;奥比中光通过芯片级整合实现边缘端算力下沉,在实时性与极端环境适应性上优势突出。
算法生态方面,前者深耕开源社区,支持 ROS、TensorFlow 等主流框架,是学术研究与消费级产品的首选;后者聚焦行业垂直场景,与华为、英伟达等企业合作构建定制化解决方案,更适合工业检测、物流机器人等对精度与鲁棒性要求严苛的领域。在算法实现上,Intel 的结构光依赖软件相位解算,奥比中光通过硬件引擎加速解码;Intel 的双目视觉需散斑增强,奥比中光通过 Census 变换实现纯视觉匹配;Intel 的 ToF 独立工作,奥比中光则通过多模态协同拓展量程。
这些差异直接影响场景适配性:Intel RealSense 在室内 AR 交互、协作机器人导航等轻量场景中表现优异,例如 UR 协作机器人集成 D435i 实现动态物体抓取,误差控制在2mm 以内;奥比中光则在户外强光、远距离检测场景中领先,如 Gemini 335Lg在 50K Lux 光照下仍保持 10 米内深度误差< 5mm。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。