谷歌 Gemini 图像模型升级，挑战 OpenAI

谷歌为 Gemini 聊天机器人升级了新的 AI 图像模型，旨在提升用户编辑照片的精细度，追赶 OpenAI 的热门图像工具，吸引更多 ChatGPT 用户。

谷歌推出 Gemini 2.5 Flash Image 更新，从周二开始向所有 Gemini 应用用户推送，同时通过 Gemini API、Google AI Studio 和 Vertex AI 平台向开发者开放。该模型基于用户自然语言请求对图像进行更精准编辑，尤其在保留人脸、动物等细节一致性方面表现出色，这是多数竞品的短板。此前，一个匿名的 AI 图像编辑器在 LMArena 众包评估平台上引发关注，谷歌承认这是自家的 Gemini 2.5 Flash Image 模型，代号“nano-banana”，在多个基准测试中表现卓越。

谷歌强调，此次更新大幅提升了编辑的无缝衔接性，输出结果可满足各种用途。AI 图像模型已成为科技巨头竞争焦点，OpenAI 推出 GPT-4o 原生图像生成器后，ChatGPT 使用量飙升。为追赶 OpenAI，谷歌在图像模型上发力，其新模型不仅注重视觉质量，还增强了遵循指令的能力。此外，该模型针对消费者使用场景设计，如助力用户规划家居和花园项目，还能将多个参考图像整合到一个提示中生成连贯图像。

尽管 Gemini 的 AI 图像生成器让创作更便捷，谷歌仍设置了限制，防止用户生成不当内容。此前，谷歌曾因 Gemini 生成不准确历史人物图像而道歉，甚至暂停过图像生成器。如今，谷歌认为已找到更好的平衡，既赋予用户创作自由，又非放任自流。谷歌在服务条款中明确禁止生成“未经同意的亲密图像”，而类似限制在其他平台如 Grok 上似乎缺失，Grok 曾允许用户生成类似泰勒·斯威夫特等名人的 AI 明星色情图像。

为应对深度伪造图像带来的真实性辨别难题，谷歌在 AI 生成图像上添加视觉水印和元数据标识，但用户在社交媒体浏览时可能不会留意这些标识。