国产图像编辑大模型再突破:阶跃星辰Step1X-Edit开源,190亿参数刷新开源性能纪录
【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview
中文科技资讯 2025-04-27 15:51
在人工智能图像生成与编辑领域持续突破的浪潮中,国内AI企业阶跃星辰今日正式对外发布重磅成果——开源图像编辑大模型Step1X-Edit。该模型凭借190亿参数量的深度架构设计,在多项核心编辑任务中展现出超越现有开源方案的性能表现,标志着国产多模态编辑技术在开源生态建设中迈出关键一步。
Step1X-Edit采用创新的双引擎架构设计,将70亿参数的多模态大语言模型(MLLM)与120亿参数的扩散变换模型(DiT)深度融合。这种"理解-生成"双轮驱动模式,使模型同时具备精准的自然语言指令解析能力和高效的图像空间变换能力。据技术团队介绍,该模型经过大规模图文对数据训练与多任务场景优化,已实现语义理解准确率提升40%、编辑区域控制精度达像素级的技术突破,在开源社区常用的图像编辑评测集上取得综合评分第一的成绩。
针对当前图像编辑领域三大核心痛点,Step1X-Edit构建了全方位的技术解决方案。在语义理解层面,模型支持复杂长指令解析与多轮对话式编辑,能够精准捕捉"将左侧人物衬衫更换为蓝色条纹款式并保留原有褶皱质感"等精细化需求;在身份一致性保持方面,通过引入跨帧特征对齐机制,使连续编辑过程中人物面部特征、肢体姿态的保持率提升至92%,有效解决传统模型易出现的"人脸变形""姿态漂移"问题;而在区域控制精度上,创新的掩码引导生成技术可实现发丝级区域分割,配合自适应风格迁移算法,确保局部编辑与原图风格的自然融合。
该模型现已支持11类高频图像编辑任务,涵盖文字内容替换、艺术风格迁移、物体材质变换、场景元素增减、表情姿态调整等主流应用场景。在电商商品图优化场景中,商家可通过自然语言指令快速实现商品颜色变体生成;在数字内容创作领域,设计师能够精准调整图像局部光影效果;在社交媒体内容生产中,普通用户也可轻松完成专业级人像精修。技术团队同步发布的API接口支持Python调用与Web端可视化操作两种模式,降低了开发者的接入门槛。
为推动开源生态建设,阶跃星辰已在Gitcode平台开放模型完整训练代码、预训练权重及技术白皮书。开发者可通过访问https://gitcode.com/StepFun/Step1X-Edit-v1p2-preview获取相关资源,同时社区将提供持续的技术支持与模型迭代更新。据了解,该模型支持单卡消费级GPU推理,在NVIDIA RTX 4090硬件环境下,512x512分辨率图像的编辑生成时间可控制在8秒以内,具备良好的落地应用可行性。
业内专家表示,Step1X-Edit的开源发布不仅为科研机构提供了高质量的研究基底,更为企业级应用开发提供了可靠的技术选型。随着该模型在内容创作、广告设计、影视后期等领域的广泛应用,有望推动数字创意产业的智能化升级,同时加速形成"开源共享-协同创新-产业落地"的良性发展循环。未来,随着多模态理解能力的持续深化与编辑任务边界的不断拓展,图像编辑技术将向更智能、更自然的人机协作模式演进。
【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考