苹果发布开源 AI Model – MGIE，以文字指令编辑图像

AJun更新于 2024-02-08 08:39:19首发于 2024-02-08 08:39:19IT资讯

苹果近日发布了一款新的开源 AI Model，名为「MGIE」，能够根据自然语言指令来编辑图像。MGIE 的全名为 MLLM-Guided Image Editing，它运用多模态大型语言模型（MLLMs）来解读使用者命令，并进行像素级的操作。该 AI Model 能够处理各种编辑方面，包括 Photoshop 风格的修改、全局照片优化以及局部编辑。

MGIE 是 Apple 与加州大学研究人员合作的成果，该 AI Model 在 2024 年的 ICLR（国际学习表示会议）上被接受发布，ICLR 是 AI 研究领域的顶尖会议之一。论文展示了 MGIE 在提升自动度量和人类评估方面的有效性，同时保持了竞争性的推理效率。

苹果发布开源 AI Model – MGIE，以文字指令编辑图像

MGIE 的基础理念是运用能够同时处理文本和影像的强大人工智能模型——多模态大型语言模型（MLLMs），来增强基于指令的影像编辑。MLLMs 在跨模态理解和视觉感知的回应生成方面展现出了显著的能力，但它们尚未广泛应用于影像编辑任务上。

iOS 17.0.1 耗电续航实测：有一款 iPhone 明显改善

MGIE 以两种方式将 MLLMs 整合进影像编辑过程中：首先，它使用 MLLMs 从用户输入中导出富有表达力的指令。这些指令简洁明了，为编辑过程提供了明确的指导。例如，给定输入「使天空更蓝」，MGIE 能够产生「将天空区域的饱和度增加 20%」的指令。

其次，它使用 MLLMs 生成视觉想像，即所需编辑的潜在表徵。这一表征捕捉了编辑的本质，可以用来指导像素级的操作。MGIE 采用了一种新颖的端到端训练方案，共同优化指令导出、视觉想像和影像编辑模块。

郭明錤称iPhone屏下Touch ID不会在这两年内出现

0 赞

苹果发布开源 AI Model – MGIE，以文字指令编辑图像

相关文章

最新发布

热门话题