谷歌 Gemini 图像模型升级,挑战 OpenAI

谷歌为 Gemini 聊天机器人升级了新的 AI 图像模型,旨在提升用户编辑照片的精细度,追赶 OpenAI 的热门图像工具,吸引更多 ChatGPT 用户。


谷歌推出 Gemini 2.5 Flash Image 更新,从周二开始向所有 Gemini 应用用户推送,同时通过 Gemini API、Google AI Studio 和 Vertex AI 平台向开发者开放。该模型基于用户自然语言请求对图像进行更精准编辑,尤其在保留人脸、动物等细节一致性方面表现出色,这是多数竞品的短板。此前,一个匿名的 AI 图像编辑器在 LMArena 众包评估平台上引发关注,谷歌承认这是自家的 Gemini 2.5 Flash Image 模型,代号“nano-banana”,在多个基准测试中表现卓越。


谷歌强调,此次更新大幅提升了编辑的无缝衔接性,输出结果可满足各种用途。AI 图像模型已成为科技巨头竞争焦点,OpenAI 推出 GPT-4o 原生图像生成器后,ChatGPT 使用量飙升。为追赶 OpenAI,谷歌在图像模型上发力,其新模型不仅注重视觉质量,还增强了遵循指令的能力。此外,该模型针对消费者使用场景设计,如助力用户规划家居和花园项目,还能将多个参考图像整合到一个提示中生成连贯图像。


尽管 Gemini 的 AI 图像生成器让创作更便捷,谷歌仍设置了限制,防止用户生成不当内容。此前,谷歌曾因 Gemini 生成不准确历史人物图像而道歉,甚至暂停过图像生成器。如今,谷歌认为已找到更好的平衡,既赋予用户创作自由,又非放任自流。谷歌在服务条款中明确禁止生成“未经同意的亲密图像”,而类似限制在其他平台如 Grok 上似乎缺失,Grok 曾允许用户生成类似泰勒·斯威夫特等名人的 AI 明星色情图像。


为应对深度伪造图像带来的真实性辨别难题,谷歌在 AI 生成图像上添加视觉水印和元数据标识,但用户在社交媒体浏览时可能不会留意这些标识。

← 上一篇 马斯克 xAI 起诉苹果和 OpenAI,指控垄断 下一篇 → 谷歌翻译推出新语言学习工具挑战多邻国