苹果近日发布了一款新的开源 AI Model,名为「MGIE」,能够根据自然语言指令来编辑图像。MGIE 的全名为 MLLM-Guided Image Editing,它运用多模态大型语言模型(MLLMs)来解读使用者命令,并进行像素级的操作。该 AI Model 能够处理各种编辑方面,包括 Photoshop 风格的修改、全局照片优化以及局部编辑。
MGIE 是 Apple 与加州大学研究人员合作的成果,该 AI Model 在 2024 年的 ICLR(国际学习表示会议)上被接受发布,ICLR 是 AI 研究领域的顶尖会议之一。论文展示了 MGIE 在提升自动度量和人类评估方面的有效性,同时保持了竞争性的推理效率。
MGIE 的基础理念是运用能够同时处理文本和影像的强大人工智能模型——多模态大型语言模型(MLLMs),来增强基于指令的影像编辑。MLLMs 在跨模态理解和视觉感知的回应生成方面展现出了显著的能力,但它们尚未广泛应用于影像编辑任务上。
MGIE 以两种方式将 MLLMs 整合进影像编辑过程中:首先,它使用 MLLMs 从用户输入中导出富有表达力的指令。这些指令简洁明了,为编辑过程提供了明确的指导。例如,给定输入「使天空更蓝」,MGIE 能够产生「将天空区域的饱和度增加 20%」的指令。
其次,它使用 MLLMs 生成视觉想像,即所需编辑的潜在表徵。这一表征捕捉了编辑的本质,可以用来指导像素级的操作。MGIE 采用了一种新颖的端到端训练方案,共同优化指令导出、视觉想像和影像编辑模块。