AI 大模型能力的逐步提升,推动人机交互方式变革。当 AI 从前沿研究阶段逐步发展为应用落地阶段,大模型逐渐成为人们生活、工作等方方面面不可或缺的助手,其产品模态也从单一的文本模态,逐步发展为文本、图像、语音等多模态形式,在应用落地阶段还额外增加了数字、代码、推理等能力。此外,随着大模型能力升阶,其使用成本也在逐步下降。
2025 年 2 月,平权模型 Deepseek-V3 的出现让大模型的每百万 Token 成本下降到 0.1 元,推动下游 AI 应用需求加速释放。与此同时,随着模型环节逐步进行成本向下、能力向上、应用模态增加的演进,AI 也渐渐对人机交互的方式产生深刻的影响。
人机交互逐步从用精确指令下达给程序,演变到模糊指令下达给 Agent,操作方式也从鼠标、键盘、触控屏等人机操作变化为语音、手势等人本交互模式。应用能力的提升和交互方式的改变,也孕育着新型 AI 终端载体的出现。
由于 AI 大模型的独特能力,新一代智能终端设备具备不同于以往互联网时代以网站和 APP 为载体的颠覆性创新与生态重构。借助 AI 大模型的能力,智能终端产品可实现 AI 助手、智能会议、AI 向导、AR 游戏等功能,逐步在新交互方式的基础上开发新功能。
在诸多智能硬件中,眼镜成为 AI 大模型最合适的载体之一。眼镜作为人身上一个重要的传统穿戴设备,具备广阔的智能化改造潜力。眼镜形态靠近人的耳、眼、嘴这三个最重要的感官器官,可随时随地、自然、直观地与多模态 AI 进行交流。用户还可通过 AI 智能眼镜听歌,与内置大模型聊天,拍摄图片或短视频等,并将看到的信息与大模型共享。同时,大模型可通过摄像头实现对周围环境的感知,从而实现图像识别等视觉处理操作,进行更全面的信息处理。
此外,眼镜的 AR 显示能力为 AI 提供文本和图像输出能力,让用户能接收到更多的图文信息。因此,智能眼镜 AI 赋能的潜力值得关注。
智能眼镜的初步重点是寻找佩戴场景,而不是一味叠加功能模块。传统眼镜产品智能化改造成功的前提是用户能够接受日常佩戴智能眼镜,因此厂商探索产品形态的发力点聚焦在使用场景、用户体验、社交互动等层面。用户能无感佩戴智能眼镜是基础,在此基础上才能用 AI 功能增加产品溢价。
随着 2023 年 RayBan Meta 的横空出世,市场也逐步对 AI 眼镜的产品形态达成共识,即眼镜硬件+AI 功能+拍摄+语音的产品形态。回顾市场就 AI 眼镜这一产品形态达成共识的过程,我们认为经历了以下几个阶段:
①寻找新的 AI 硬件;
②XR 头显设备短期内难以打开市场,AI 加持只是“锦上添花”而非“雪中送炭”;
③眼镜形态的 AR 产品由于较为轻便更易为消费者接受;
④AI 眼镜是更为早期的智能眼镜形态,AI 眼镜可通过替代传统眼镜进行普及,有望率先规模落地。
因此,智能眼镜在经过减法的探索后,找到一个过渡状态“AI 眼镜”,此类眼镜可以很好的在 AI 功能、价格、实用性上做好平衡。同时 RayBan Meta 在 2024年年销量超 140 万副,也证明了做减法后的 AI 眼镜产品生意模式的可行性。
展望后续,我们认为当下的 AI 眼镜不会是产品的最终形态。智能眼镜在成为成熟的智能终端产品的道路上,还面临丰富的生态应用、舒适的佩戴体验、合适的售价三者平衡的考验。然而,目前 AI 眼镜存在一个关键问题,即缺乏屏幕显示能力,这使得它与用户之间的信息传输方式仅局限于语音维度。此外,视觉输出的缺少就意味着在互联网和移动互联网时代所构建的涵盖电商、本地生活、音视频娱乐等成千上万的应用和服务,基本都难以在 AI 眼镜平台上重现。因此,从生态应用的角度来看,AI 眼镜很难成为一个通用的计算终端。
从产品形态来看,AI 眼镜是一种符合当前市场预期和消费者认知的过渡期形态。当用户对 AI 眼镜的接受度逐步提高,眼镜产品由于其具备贴近用户视觉的特性,在形态上会逐步叠加光学显示模块(光波导+光机),走上 AI+AR 的道路。其中,AI 与 AR 的能力是相辅相成的,AI 可以提升 AR 交互的智能性(如手势识别、眼动跟踪等),AR 则是 AI 合适的显示载体。因此,后续的智能眼镜产品节奏应该是 AI 先行,探索 AR。
具体对比 MR/AR/AI 眼镜来看,AI 眼镜专注于语音、图像信息的捕捉,聚焦智能化处理与人机交互,借助语音识别、图像识别等人工智能技术,实现发送消息、查询天气、识别物体场景等功能,为用户提供智能化的辅助服务。例如,RayBanMeta 眼镜可利用 Llama3 大模型成为用户的 AI 对话助理,辅助用户回答问题。
AR/XR 眼镜的功能更侧重于提供沉浸式的增强现实体验。通过虚拟信息的叠加,AR 眼镜可以让用户看到现实世界中不存在的虚拟物体,或者在现实环境中预览和修改设计作品,提供给用户信息提示、沉浸式观影、空间导航、沉浸式办公等体验。
具体来看,信息提示类的 AR 眼镜,例如雷鸟 X2 可以利用 Micro LED 显示屏为用户提供空间导航、贴面翻译等功能;观影类的 AR 眼镜,比如 XREAL Air2则可以为用户提供 3DoF 可悬停空间屏,可进行 AR 运动、AR 观影、AR 办公等一系列 AR 互动操作。
AI 和 AR 眼镜功能上的差异决定了二者核心硬件差异,其中 SoC 是 AI 眼镜硬件的关键,光学则是 AR 眼镜硬件的核心问题。AI 眼镜的硬件需求主要集中在 SoC 处理器上。通过在传统眼镜上配备摄像头、麦克风等传感器,将其智能化改造,然后将传感器收集到的信息传输给内置的SoC 处理器进行分析和处理。此外, AI 眼镜由于本身具备空间结构和使用时长的限制,对适用的 SoC 处理器也提出了低功耗、高性能等需求。
根据 Wellsenn XR数据,在 Ray Ban Meta 眼镜的成本拆解中,SoC 处理器是占比最大的单一硬件结构,占比约 34%。相比而言,AR 眼镜的硬件需求则相对较高,且其光学显示组件无法做到满足性能需求的同时实现轻量化量产。除了需要功能强大的 SoC 处理器和各种传感器来支持复杂的图像处理和虚拟信息叠加功能外,AR 眼镜还需要额外的显示技术和相应的光学组件来创建虚拟图像,光学组件的集成度和功耗会直接影响 AR 眼镜的重量和性能。
因此,上游的光学模组元件制造工艺复杂且技术难度高,导致其成本高昂,成为制约 AR 眼镜量产普及的关键因素之一。
根据智东西数据,以价格$1,000 的 Hololens 开发者版本为例,光学显示模组占比最大(Lcos 投影设备$180 和透明全息透镜$290),达到总成本的 47%;处理器约占总成本 25%。由此可见,光学显示模组是 AR 眼镜硬件中的价值高地,而各厂家对光显方案技术的追求也一直在前进中。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。