首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业科技

视频模型:海内外差异化竞争,已支持短片级内容创作
思瀚产业研究院    2026-03-16

DiT 成为主流架构,目前 AI 视频模型处于快速迭代期。2022 年底以 GPT 为代表的大语言模型实现关键突破,开启 AI 发展浪潮。在此背景下,AI 视频模型也迎来了快速发展,其发展历程可分为三大阶段:

1)技术架构扩散期:2014-2022 年,视频模型先后历经 GAN、Transformer、Diffussion 等技术架构迭代。2023 年 6 月,Runaway基于 Diffusion 架构推出 Gen-2,突破文生、图生视频能力,成为全球首个实现商业化的文生视频模型。

2)DiT 架构普及期:2024 年 2 月,OpenAI Sora 将 DiT 架构引入视频生成领域,验证了技术的有效性。此后,基于 DiT 架构,各大模型厂商相继发布AI 视频模型,如海外谷歌 Veo,国内快手可灵 1.0、MiniMax 海螺 1.0 等,奠定了 DiT架构的主流地位。

3)技术快速迭代期:2025 年以来,模型更新迭代速度显著加快,并实现统一多模态、音画同出、多镜头叙事等核心突破,模型生成可控性、美学风格、物理模拟等逐步提升。

参考 Artifical Analysis 视频模型排行榜,以及网页访问量数据,选取八个 AI视频模型,并按海外和国内模型进行划分。通过梳理各个模型的版本迭代细节,总结目前主流 AI 视频模型的演进趋势,以及内容生成能力所处的阶段。

1.1 海外:率先实现物理模拟、保真度等前沿突破,Veo 3 领跑全球

OpenAI Sora:确立 DiT 架构主流地位,上线应用开启 C 端尝试。1)开启 AI 视频新纪元:2024 年 2 月,OpenAI 发布 Sora 预览版,将 DiT 架构引入视频生成领域,奠定视频模型发展基础。2)已完成两个版本更新:2024 年 12 月,Sora Turbo 正式向用户开放使用,实现从预览版到商业化落地。时隔 10 个月后,Sora2 发布,单次生成时长 25 秒及原生生成分辨率准 2K,均为视频模型最高水平。

同时,在物理规律和复杂指令遵循上实现显著提升。从生成样片来看,角色复杂动作、环境或物体表面光影等生成内容都较前代模型更接近真实世界。3)布局 C 端应用:Sora2 推出的同时,面向 C 端用户推出 Sora 应用。但因应用内大多为相似的 AI 视频导致用户审美疲劳、产品定位模糊等原因,Sora 应用近期下载量、活跃用户等数据持续下滑。

谷歌 Veo:专注电影级创作控制,生成视频质量领跑全球。2024 年 5 月,谷歌发布 Veo 预览版,模型专注于电影级创作控制。此后,Veo 围绕这一核心定位完成三次更新迭代。在模型能力上,依托对电影术语的深度理解,持续优化物理真实感、镜头语言表现力、叙事连贯性等。其中,2025 年 5 月发布的 Veo3 是最早实现音画同出的视频模型,且分辨率可通过超分功能升至 4K;最新迭代版 Veo3.1 位列 LMArena 文生视频榜榜首,生成视频质量领跑全球。

在创意控制上,推出时长延长、对象增减、镜头控制等功能,使模型逐步向专业视频编辑工具演进。在产品生态上,发布面向电影制作人的 AI 电影制作工具 Flow,集成 Gemini、Imagen、Veo,提供剧本创作、角色创建、视频生成与编辑等功能。并搭建 Flow TV,提供展示和浏览生成视频的渠道。截至2025 年 10 月,Flow 累计生成视频超 2.75 亿个。

Runaway Gen:强调视频编辑能力,Gen2 为全球首个商业化文生视频模型。Runaway从视频编辑工具起家,2023 年 2 月发布 Gen-1,实现视频到视频的风格化转换,支持将提示词描述的风格应用于源视频。此后,Gen 完成四次更新迭代,始终强调视频编辑能力,于 2023 年 6 月最早推出镜头控制、动作笔刷等功能。未来,Gen 计划将已有的编辑控制功能拓展至图生视频和视频生视频领域,持续强化视频编辑优势。此外,2023 年 6 月发布的 Gen-2 是全球首个实现商业化的文生视频模型,其基于 Diffusion架构突破文生、图生视频能力,并推出订阅制+积分制的混合付费模式。

Luma Ray:构建垂类场景优势,Ray3 为全球首个原生 HDR 及推理驱动视频模型。Ray 聚焦专业影视创作场景,构建起垂类场景优势。在模型能力上,Ray3 是全球首个支持原生 HDR 的模型,且分辨率可通过超分功能升至 4K,生成视频质量达到部分影视级制作标准;同时,Ray3 也是全球首个推理驱动的模型,区别于非推理模型由提示词直接映射至像素生成,其通过提示词理解、意图推理、输出规划,实现生成视频的保真度 SOTA,更适配影视、CG 等高精度内容创作需求。在产品生态上,2024 年 11 月,Dream Machine v1 升级为 AI 多模态创作平台,完成 ios 应用开发、界面优化、Photon图像生成模型集成等迭代。平台依托多个自研多模态模型与多样化专业编辑功能,为创作者提供从生成到编辑的全流程工具。

1.2 国内:差异化突围,强化可控性、多模态交互与本土适配

快手可灵:深耕多模态及可控生成,主体一致性超 96%。2024 年 6 月,快手发布基于 DiT 架构的可灵 1.0,是全球首个用户可用的 DiT 架构视频模型。此后,可灵以2-4 个月为周期进行迭代,至今已完成 10 个版本的发布,其深耕多模态及可控生成,推动一致性持续提升。在多模态方面,可灵 2.0 提出全新的多模态视觉语言交互范式MVL,该范式将输入内容从自然语言升级为多模态视觉语言,弥补了纯文本提示词的信息短板,实现对角色、场景、镜头等内容的精准约束。在可控生成方面,模型相继推出多模态编辑、主体库、动作控制、自定义分镜等功能,通过对画面内容、角色特征、动作姿态、镜头语言等内容的精准调控,有效降低视频生成的随机性。依托多模态及可控生成能力,可灵模型主体一致性表现突出,其中可灵 o1 主体一致性超 96%。

字节 Seedance:具备原生导演级多镜头生成能力,生成可用率达到业界 SOTA。1)多镜头能力:2025 年 5 月,字节发布 Seedance 1.0 Pro,通过将文本提示拆解为专业镜头序列、跨镜头保持一致性等技术,实现 2-3 个连贯镜头的叙事生成。9 个月后发布的 Seedance 2.0 进一步提升多镜头叙事能力,通过分析叙事逻辑、自分镜和自运镜,实现原生导演级多分镜无缝生成,输出具有景别变化、机位运动、时空连贯的多镜头视频。2)全模态参考能力:Seedance 2.0 具备全模态参考功能,支持输入文本、以及最多 9 张图片、3 段视频、3 段音频作为生成参考,实现视频生成的精准可控。依托模型两大核心能力,Seedance 2.0 的视频生成可用率大幅提升,根据极客公园测算,其生成 15 秒视频的可用率或达 90%,远超此前业内均值 20%。

阿里万相:以中文创作需求为核心,最早实现音画同出、单次生成时长 15 秒。2024 年 9 月,阿里发布万相视频模型,该模型以中文创作需求为核心,针对中式元素的概念理解和生成表现力做了特别优化,擅长生成国风视频。时隔五个月后发布的万相 2.1,延续了初代模型关注中文创作的特点,为首个支持中文文字及中英文文字特效生成的视频模型。此后,万相完成三次更新迭代,实现多个国内领先的技术突破:1)万相 2.2 是业界首个使用 MoE 架构的视频模型,在同参数规模下,实现算力消耗节省约 50%;2)万相 2.5 采用原生多模态架构,是国内首个实现音画同步生成的模型;3)万相 2.6 是国内首个实现单次生成视频时长 15 秒的模型。

MiniMax 海螺:聚焦人物动作及表情表现力,推出细分场景视频模型。2024 年 8月,MiniMax 发布海螺 1.0,强调稳定的运动生成,以及细致真实的人物情感表现。此后,海螺围绕人物动作及表情表现力持续迭代,海螺 2.0 及 2.3 持续提升复杂指令遵循和复杂物理表现能力,在人物肢体动作、面部表演、微表情变化等细节的呈现中优势显著。此外,海螺针对细分场景推出专用视频模型:1)海螺 1.0-Live:专注于将静态 2D 图像转化为动态视频内容,聚焦二次元、插画风格的视频生成;2)海螺 1.0-Director:专注于镜头运动的可控生成,提供 15 种可自由组合的单一运镜。

1.3 模型已支持 L3 短片级内容创作,仍处技术快速迭代期

根据以上八个模型的版本迭代细节,总结 AI 视频模型的演进趋势,具体有以下五点:

画质与时长:从低清短片段向高清长视频演进,海外重分辨率、国内重时长。海内外主流模型均将提升分辨率、延长时长、优化画质作为迭代方向之一,并呈现海外优先突破分辨率,国内侧重拓展单次生成时长的差异化路径。具体来看:

1)原生分辨率最高为准 2K:海外模型领先,Sora2 原生分辨率最高,为准 2K;Veo3、Ray3 可通过超分功能升至 4K;Ray3 支持生成 16bit-HDR,已达电影行业对母版的精度要求。而国内模型最高支持原生 1080p。

2)单次生成时长最长为 25 秒:海外 Sora2 单次生成时长最长,达 25 秒。国内万相 2.6 最先实现单次生成 15秒,可灵 3.0、Seedance 2.0随后跟进,该时长长于除 Sora2 外的其他海外模型。同时,海内外模型均具备视频延长、拼接功能,可将时长延长至分钟级。

速度与成本:生成速度及成本持续优化,海外模型定价整体高于国内。海内外主流模型通过架构优化、发布轻量级模型等方式提升生成速度、降低生成成本,以适配C 端创作者和 B端创作团队的不同需求。具体来看:

1)生成速度提升:海内外模型均在迭代中实现不同程度的生成速度提升。如 Ray2 通过投入 10 倍于前代模型的算力,实现生成速度提升,万相 2.2 图生视频模型的生成速度提升 12 倍。

2)生成成本间接降低:一是发布轻量级模型,降低生成成本,如 Gen-4 的定价为 0.24 美元/秒,Gen4 Turbo 的定价为 0.1 美元/秒。二是新版模型在提升生成质量的同时,维持定价不变,如 Veo、万相、海螺。

3)海外模型定价整体高于国内:对比各模型最新版本的定价,以文生、无声、无参考、不含视频输入、720p 视频定价为例,海外模型定价区间为 0.1-0.5 美元/秒,国内模型定价区间为 0.4-1 元/秒。

多模态能力:输入端实现多模态混合,输出端实现音视频同出。在输入端,海内外主流模型通过创新多模态视觉语言交互范式、强化跨模态理解能力等方式,实现从仅支持文本或图像的单一模态输入,向支持文本+图片/音频/视频的多模态混合输入的升级,显著提升指令遵循、可控生成能力。在输出端,海内外模型均已实现音视频同步生成。具体来看,早在 2024 年 9 月,国内万相通过调用音频生成模型实现基础音效生成。随着多模态融合技术的成熟,2025 年 5 月,海外 Veo3 基于统一的多模态架构,率先实现原生音频与视频的同步生成,相较于早期的音频生成方式,显著提升音画同步精度。此后,国内主流模型自 2025 年 9 月起亦陆续完成音画同步生成的迭代。

可控性与适配性:从随机生成向精细化控制、专业化创作适配演进。海内外主流模型持续强化对人物、场景、镜头等创作要素的精细化控制能力,同时针对影视等专业场景进行优化,逐步适配专业创作流程。具体来看:

1)全流程可控性提升:在画面可控性上,海内外模型均实现角色、场景等的一致性提升,并围绕创作流程推出增强可控性的功能,如参考生成、镜头控制、运动笔刷等。在叙事可控性上,2025 年末起,国内万相 2.6、可灵 3.0、Seedance2.0 相继更新分镜能力,支持生成多镜头连贯叙事视频。

2)适配细分和专业领域需求:在内容生成上,海内外模型持续拓展美学风格覆盖广度,从基础风格向多元细分风格演进,满足多样化的创作需求,如 MiniMax 针对二次元、插画风格的视频生成推出海螺 1.0-Live。在专业场景适配上,Ray3 支持输出可供专业创作者编辑的 EXR 原始素材格式,直接适配后期制作。

模拟能力:从生成简单画面向精准模拟物理规律、人物动作与表情演进。海内外主流模型从最初仅能实现基础的画面与动作生成,逐步向遵循物理规律、还原复杂人物动作与微表情升级,生成内容的保真度与合理性大幅提升。具体来看:

1)遵循真实物理规律:以 Sora 为例,根据 APIYI 数据,Sora2 的物理规律合规率为 88%,相较于前代模型 41%提升超一倍;人物行走、动态水流、烟雾扩散等具体情景的物理规律合规率相较于前代模型均实现提升。

2)还原人物动作与表情:以海螺为例,得益于模型在复杂物理表现与复杂指令遵循的进一步增强,最新的海螺 2.3 模型可呈现出舞蹈、跳跃等更复杂的人物肢体动作,以及更真实自然的真人面部表演、微表情变化等细节。

基于“可控性、美学、物理”三大维度,评价模型内容生成能力。AIGC 内容创作分级标准可依据可控性、美学风格、物理模拟三大维度,将 AIGC 内容创作划分为五个级别,用于评价视频模型的能力等级。级别越高,代表模型支持生成的视频质量越高、时长越长。L1 级至 L5 级覆盖从基础素材到专业影视内容,即 L1 对应 5-10 秒的单镜头和分镜素材,L2 对应数十秒的短视频片段,L3 对应数分钟、带叙事结构的短片,L4对应 20 分钟以上的中长完整剧情视频,L5 对应消费级影视内容。

AI 视频模型目前已支持 L3 短片级内容创作,并部分满足 L4 长片级标准。基于AIGC 内容分级标准,并结合上文总结的目前 AI 视频模型的五大演进趋势,我们认为,目前 AI 视频模型已支持 L3 短片级内容创作。即:1)在可控性方面,达到角色形象、口型、动作基本可控,且拥有平移、垂直、推进等基础运镜;2)在美学风格方面,支持写实、电影、动漫等多种风格;3)在物理模拟方面,可对基础物理规律进行模拟,且可呈现常规动作和连续复合动作。此外,模型已部分满足 L4 长片级内容创作的标准,如实现多主体参考、影视级运镜控制等。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。