1、GPT-4o:发起图像生成领域技术革命
2025年3月26日,OpenAI正式推出GPT-4o原生图像生成功能,取代了此前的DALL-E3,成为ChatGPT和Sora平台的默认图像引擎。GPT-4o具备几大特点:精准文本渲染:GPT-4o首次解决了图像生成领域的“文字难题”,可精准生成Logo、菜单、路牌等含复杂文本的图像。例如,用户描述“印有OpenAI字样的T恤”,模型能准确呈现文字细节,甚至保留摄影倒影的真实感。
复杂指令执行:支持用户通过自然语言指定宽高比、色号、透明度等参数,并一次性处理10-20个对象的绑定关系。多模态深度整合:GPT-4o与Sora平台联动,用户可基于生成的图像进一步创作视频。艺术风格全覆盖:支持生成写实照片、手绘草图、漫画分镜等多种风格,一键生成吉卜力风格的图片,在海外社媒火爆出圈,ChatGPT一小时新增了百万用户。
2、即梦3.0:中文AI绘图领域的里程碑
字节跳动旗下视频生产模型即梦3.0于2025年4月3日开启灰度测试,并于4月7日全量上线。即梦3.0的图像生成支持2K分辨率(2560×1440像素)直出图像,相比Midjourney在16:9分辨率下仅1456×816像素的水平,其清晰度与细节展现更胜一筹。
中文文本生成能力方面,即梦3.0进步显著,以往版本中小字模糊、排版杂乱的难题得到解决,并且用户能通过自然语言轻松控制文字的颜色、大小、位置,甚至指定字体风格。光影与材质表现是即梦3.0的另一大亮点,它能够精准呈现“硬边光影切割、冷暖色调对比”等高级视觉效果,使得即梦3.0生成的图像不再有“塑料感”或“虚假感”,而是具备了真实摄影作品般的质感和深度。根据经纬洞见,在电商广告测试中,80%用户认为即梦3.0的成图“可直接商用”,而Midjourney作品仍需人工修改。此外,即梦3.0从输入提示到输出成品仅需数秒,极大提升了创意迭代的效率。
3、可灵2.0:定义文生视频领域人与AI交互的全新方式
根据快手科技数据,自2024年6月发布,截至2025年4月,可灵AI已累计完成超20次迭代,全球用户规模突破2200万,月活用户数量增长25倍。4月15日,可灵大模型2.0版本及可图大模型2.0版本正式面向全球发布。在文生视频领域,可灵2.0对比谷歌Veo2的胜负比为205%,对比Sora的胜负比达367%,在文字相关性、画面质量、动态质量等维度上显著超越对手。
特别的是,可灵2.0大师版全面升级视频及图像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图。支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,帮助创作者们实现更加灵活的二次编辑和处理,精准实现AI创作者们的创意表达。
4、阶跃星辰Step-Video-TI2V:文生视频控制能力大幅提升
2025年3月,阶跃星辰开源了图生视频模型——Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。
和目前已有开源图生视频模型相比,Step-Video-TI2V不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。此外,Step-Video-TI2V支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,可以根据创作者需求生成大片级影片。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。