SOURCE // LABS

阿里发布 Qwen-Image-2.0-RL:用 GRPO 打造更懂人意的图像生成

阿里发布 Qwen-Image-2.0-RL:用 GRPO 打造更懂人意的图像生成

阿里巴巴研究团队近日发布了最新的技术报告,推出了名为 Qwen-Image-2.0-RL 的后训练(post-training)流水线。该系统成功将基于人类反馈的强化学习(RLHF)和同策略蒸馏(OPD)引入到了 Qwen-Image-2.0 图像扩散模型中,旨在全面提升图像生成的视觉质量与复杂的指令遵循能力。

为了提供高可靠性的奖励信号,该团队构建了任务特定的复合奖励模型。这些模型通过微调视觉语言模型(VLM),引入了单点评分范式和一步步思考的 思维链(CoT) 推理。在文本生成图像(T2I)任务中,该奖励模型覆盖了图文对齐、美学度以及人像真实度三个维度;而在图像编辑任务中,奖励系统则重点解决指令遵循准确性以及人脸身份特征保持度。

在奖励系统的基础之上,研究人员开发了一个可扩展的、基于组相对策略优化(GRPO)的强化学习训练框架。该框架融合了混合无分类器引导(CFG)策略以保留预训练知识,并通过组内奖励范围过滤进行提示词精选,以及针对不同类别进行奖励权重的校准,从而保证了 RL 训练的稳定性和高效性。

为了将针对文本生成图像和图像编辑分别优化的任务专用 RL 策略进行合并,研究团队提出了同策略蒸馏(On-policy Distillation)作为最终训练阶段。该方法通过轨迹级速度匹配,将多个教师模型的能力整合到单一的学生模型中。实验结果表明,#Qwen-Image-2.0-RL 在 Qwen-Image-Bench 上取得了 57.84分 的综合成绩(相比基座模型提升了2.61分),在 T2I 竞技场中的 Elo 评分达到 1193(提升78分),在图像编辑竞技场中达到 1349(提升93分),展现出在美学质量和指令对齐上的显著优势。

AgentUpdate 深度解析

Qwen-Image-2.0-RL 的推出,标志着 #RLHF 特别是 GRPO 框架从纯文本 LLM 向多模态生成领域的成功跨越。在 AI Agent 生态中,高精度的图像生成和实时图像编辑正逐渐成为空间智能与多模态交互代理的核心技能。传统的扩散模型往往缺乏精确的意图对齐和序列化编辑能力,导致 Agent 在执行复杂视觉任务时反馈链条断裂。阿里此次通过将多任务 RL 策略与同策略蒸馏相结合,不仅降低了多模态强化学习的计算复杂度,更大幅提升了模型在“理解-执行-反馈”闭环中的指令遵循精度。这种端到端的可控图像生成能力,为未来具身智能 Agent 以及自动化视觉协同设计 Agent 奠定了更坚实的底层多模态基石。