视频生成等多模态模型不断迭代升级，为多模态AI应用打下基础 - 产业资讯 - 行业新闻

视频生成等多模态模型不断迭代升级，为多模态AI应用打下基础
思瀚产业研究院 2025-05-12

1、GPT-4o：发起图像生成领域技术革命

2025年3月26日，OpenAI正式推出GPT-4o原生图像生成功能，取代了此前的DALL-E3，成为ChatGPT和Sora平台的默认图像引擎。GPT-4o具备几大特点：精准文本渲染：GPT-4o首次解决了图像生成领域的“文字难题”，可精准生成Logo、菜单、路牌等含复杂文本的图像。例如，用户描述“印有OpenAI字样的T恤”，模型能准确呈现文字细节，甚至保留摄影倒影的真实感。

复杂指令执行：支持用户通过自然语言指定宽高比、色号、透明度等参数，并一次性处理10-20个对象的绑定关系。多模态深度整合：GPT-4o与Sora平台联动，用户可基于生成的图像进一步创作视频。艺术风格全覆盖：支持生成写实照片、手绘草图、漫画分镜等多种风格，一键生成吉卜力风格的图片，在海外社媒火爆出圈，ChatGPT一小时新增了百万用户。

2、即梦3.0：中文AI绘图领域的里程碑

字节跳动旗下视频生产模型即梦3.0于2025年4月3日开启灰度测试，并于4月7日全量上线。即梦3.0的图像生成支持2K分辨率（2560×1440像素）直出图像，相比Midjourney在16:9分辨率下仅1456×816像素的水平，其清晰度与细节展现更胜一筹。

中文文本生成能力方面，即梦3.0进步显著，以往版本中小字模糊、排版杂乱的难题得到解决，并且用户能通过自然语言轻松控制文字的颜色、大小、位置，甚至指定字体风格。光影与材质表现是即梦3.0的另一大亮点，它能够精准呈现“硬边光影切割、冷暖色调对比”等高级视觉效果，使得即梦3.0生成的图像不再有“塑料感”或“虚假感”，而是具备了真实摄影作品般的质感和深度。根据经纬洞见，在电商广告测试中，80%用户认为即梦3.0的成图“可直接商用”，而Midjourney作品仍需人工修改。此外，即梦3.0从输入提示到输出成品仅需数秒，极大提升了创意迭代的效率。

3、可灵2.0：定义文生视频领域人与AI交互的全新方式

根据快手科技数据，自2024年6月发布，截至2025年4月，可灵AI已累计完成超20次迭代，全球用户规模突破2200万，月活用户数量增长25倍。4月15日，可灵大模型2.0版本及可图大模型2.0版本正式面向全球发布。在文生视频领域，可灵2.0对比谷歌Veo2的胜负比为205%，对比Sora的胜负比达367%，在文字相关性、画面质量、动态质量等维度上显著超越对手。

特别的是，可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力，上线全新的多模态视频编辑功能，能灵活理解用户意图。支持在一段视频的基础之上，通过输入图片或文字，对生成的视频内容实现元素的增加、删减、替换，帮助创作者们实现更加灵活的二次编辑和处理，精准实现AI创作者们的创意表达。

4、阶跃星辰Step-Video-TI2V：文生视频控制能力大幅提升

2025年3月，阶跃星辰开源了图生视频模型——Step-Video-TI2V，一款基于30B参数Step-Video-T2V训练的图生视频模型，支持生成102帧、5秒、540P分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点，同时天生具备一定的特效生成能力。

和目前已有开源图生视频模型相比，Step-Video-TI2V不仅在参数规模上对该领域的研究提供了更高的上限，其运动幅度可控能力，更是能够平衡图生视频生成结果的动态性和稳定性，为创作者提供更为灵活的选择。此外，Step-Video-TI2V支持对多种运镜的理解，可以对生成视频中的镜头运动进行精准控制，可以根据创作者需求生成大片级影片。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

免责声明：
1.本站部分文章为转载，其目的在于传播更多信息，我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点，并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题，我们将及时沟通与处理。