谷歌Nano Banana Pro图像生成模型:Gemini 3驱动高分辨率多语言创意控制
谷歌Nano Banana Pro图像生成模型:Gemini 3驱动高分辨率多语言创意控制
三个月前,谷歌AI Studio负责人Logan Kilpatrick在社交媒体上发布了一个香蕉表情,暗示了现象级图像生成模型Nano-banana即将问世,这一举动在科技圈引发了广泛关注。
Nano-banana,即Gemini 2.5 Flash Image模型,其强大的图像处理能力已经广为人知。无论是修复珍贵的老照片,还是生成精致的迷你手办,这款模型都在图像编辑领域实现了重要突破,让普通创作者能够轻松表达创意灵感。
我们之前曾深入探索,整理了7种展现纳米香蕉超强图像理解与生成能力的趣味应用,感兴趣的读者可以回顾了解。
就在Gemini 3正式发布前夕,Logan Kilpatrick再次使用了相同的营销策略,成功点燃了用户对新模型的期待。
今天下午,这一系列预告达到了高潮。
随着Gemini 3的隆重登场,谷歌的王牌模型阵容中只剩下那支备受期待的香蕉。
不出所料,就在刚刚,谷歌正式发布了最新、最强大、最全面的图像生成模型Nano Banana Pro(Gemini 3 Pro Image)。这款带有「专业级」后缀的纳米香蕉模型,深度融合了Gemini 3 Pro的强大推理能力和丰富的世界知识,在性能上实现了质的飞跃。
官方链接:https://gemini.google/overview/image-generation/
简而言之,Nano Banana Pro的专业级提升主要体现在三个方面:前所未有的控制力、完美的文字渲染效果和更强的世界知识,使其具备了创作工作室级别设计作品的能力。
前所未有的控制力
高分辨率支持
作为一款图像生成模型,Nano Banana Pro最直观的基础能力升级是能够生成2K和4K的高分辨率图像。
图像像素量的大幅提升,意味着模型必须在细节刻画、画面精度、生成稳定性、一致性和可控性等方面进行全面升级。
此外,Nano Banana Pro支持广泛的图像长宽比,有效解决了基础款Nano Banana在控制图像比例方面的痛点问题。特别是在Gemini对话中明确要求特定图像比例时,Nano Banana Pro能够准确生成对应长宽比的图像。
得益于多种可用的长宽比和2K/4K高分辨率,谷歌官方宣称:「生成的作品可以直接应用于任意平台,从社交媒体到印刷物料都能完美适配。」
更强大的一致性
Nano Banana之所以能够火遍全网,最重要的原因在于其令人惊叹的视觉一致性控制能力。
举一个大家熟悉的例子:只需上传一张简单的服装图和人物照片,再配合一两句限制性文本指令,模型就能快速精准地将元素融合,轻松生成风格统一、构图自然,并且保持人物和服装一致的OOTD合成照。
而使用Nano Banana Pro,用户可以融合比以往更多的元素:最多使用14张参考图像,同时保持多达5个人物的一致性与相似度。
效果令人印象深刻,Nano Banana Pro不仅能够保留参考图片中的物体和人物特征,更能深入理解参考图片中的背景图像信息,包括光影、材质和图像结构,深刻洞察用户的设计意图。即使面对高达14张参考图像,Nano Banana Pro仍能在新图像中完整保留所有细节。
无论是将随手勾勒的手绘草图转化为可落地的实体产品,还是将技术蓝图转变为质感逼真的3D结构,Nano Banana Pro都能帮助用户轻松跨越从想象到实现的鸿沟。
在设计领域,Nano Banana Pro还能为设计稿一键应用理想的视觉风格,包括品牌主视觉、潮流配色,以及不同材质和质感的测试效果,都能快速生成。最终呈现的结果在所有关键特征上都能保持高度统一,从电商图到宣传海报,从社交内容到实体包装,都毫无割裂感。
相比Nano Banana,Pro版本在一致性控制方面的显著提升,大大拓展了参考图生成的上限,创造了更多创新的应用可能。
更灵活的创意控制
借助Nano Banana Pro的全新能力,高级图像编辑不再是专业团队的专属领域——真正的创意控制权被交回到用户手中。
用户可以对画面进行近乎「分子级」的精细操控:
自由选取并重塑图像任意局部区域,实现精准微调
切换摄像机角度,快速生成不同视角与构图
调整焦点位置,打造更具叙事感的画面重心
应用电影工业级调色,一键改变视觉气质
重塑场景光照,从白天到夜晚、从硬光到散景过渡皆可瞬时完成
这些强大的功能让Nano Banana Pro从简单的图像生成工具,跃升为一个能够支持创作者进行分镜级、视觉导演级创作的图像引擎。
文字与知识大师
轻松驾驭文字生成
在图像生成模型中,文本生成一直是个技术难点。
Nano Banana Pro在这一痛点上实现了重要突破:它具备非常强大的文本生成能力,能够生成包含更准确、清晰可读、多语言文本的视觉内容。
Nano Banana Pro是目前生成图像内可读文本的最佳模型,无论用户需要的是一句简短标语还是一整段较长文本,都能够清晰、完整、合理地生成,并且与图像内容完美融合。
现在用户可以在视觉设计或海报中创建带有更多细节的文本,具备更广泛的纹理、字体与创意样式选择。
另外,凭借Gemini的增强多语言推理能力,用户可以通过Nano Banana Pro生成多语言文本,或对内容进行本地化与翻译,从而实现全球化扩展,或更轻松地与朋友和家人分享内容。
例如,将饮料瓶上的英文翻译成韩语,并且无缝地合成在原文字的位置,同时保证超高质量的细节和字体风格的一致性。
Gemini 3赋能知识库
由于与Gemini 3大模型的深度融合,Nano Banana Pro不仅能生成漂亮的图像,还能帮助用户创建更有实用价值的内容。
Nano Banana Pro将庞大的知识库融入生成过程,能够比以往的图像生成模型产出更具事实准确性的视觉内容。
此外,在启用相关能力时,通过与Google搜索的检索基座相结合,模型可以连接到实时的网页内容,生成基于最新数据的输出。
用户可以因此获得准确的解释内容,进一步理解特定事实主题,并且生成语境丰富的信息图和示意图。
这对于需要精确呈现现实信息的应用场景尤为重要,如生物学示意图或历史地图的生成。
更进一步,Nano Banana Pro还具备根据内容自动生成PPT页面的能力。
无论用户提供的是一段文字、几条要点,还是一篇长文,模型都能自动理解内容和结构,生成对应的演示文档图像。这实现了「从文字到展示」流程的自动化与智能化,是一个实用的技术进步。
隐形水印,快速验证
随着Nano Banana Pro图像生成能力的再次进化,生成图像与真实图像愈发难以区分。
为此,谷歌在这次更新发布后,对AI图像鉴别采取了新的方法,以提高内容来源的透明度。
Gemini应用中现在加入了一项新功能:用户可以直接验证某张图像是否由Google AI生成或编辑。
从今天开始,用户可以直接在Gemini应用中验证某张图像是否由Google AI生成或编辑。
如果用户看到一张图像并希望确认它是否由Google AI生成,只需将其上传至Gemini应用,并提出类似于:「这是由Google AI生成的吗?」的问题,就可以获取准确的答案。
这一能力由SynthID实现,这是谷歌的数字水印技术,它将不可察觉的信号嵌入到AI生成内容中。谷歌在2023年推出SynthID,自那以来,已有超过200亿份AI生成内容通过SynthID加上水印。
Gemini会检测图像中的SynthID水印,并结合自身的推理能力,为用户提供验证结果,帮助用户更好地了解在网上看到的内容的背景信息。不久后,谷歌将扩展SynthID验证能力,支持包括音视频在内的更多格式,并让这些能力覆盖更多产品,如搜索等。
作为此次发布的一部分,从今天起,通过Gemini、Vertex AI、Google ADs、Flow生成的Nano Banana Pro(Gemini 3 Pro Image)图像都将嵌入C2PA元数据,进一步提升图像生成方式的透明度。
面向各类用户上线
谷歌表示,将在多个原本支持旧版本模型的Google产品中上线Nano Banana Pro:
面向消费者与学生
在Gemini App中,当用户选择「Create images」并使用「Thinking」模型时,将在全球范围内陆续上线。
免费用户会获得有限的免费额度,用完后将回退至原版Nano Banana模型。
Google AI Plus、Pro和Ultra的订阅用户将获得更高额度。
在搜索的AI Mode中,Nano Banana Pro将向美国的订阅用户提供。
NotebookLM中,Nano Banana Pro也将向全球订阅用户提供。
面向专业人士
Google Ads将升级图像生成功能至Nano Banana Pro,让广告主可在Asset Studio中使用最前沿的生成与编辑能力。
同时,它也将从今天开始陆续向Workspace用户推出,包括Google Slides和Google Vids。
面向开发者与企业
可通过Gemini API与Google AI Studio访问,并可在Google Antigravity中用于创建丰富的UX布局与原型。
企业可立即在Vertex AI中开始大规模内容创作支持,并且即将登陆Gemini Enterprise。
面向创意人士
Nano Banana Pro将提供给使用Flow的Google AI Ultra订阅用户,为创作者、导演与营销团队提供更精准、更可控的镜头与场景生成能力。
Gemini 2.5 Flash Image和Gemini 3 Pro Image模型可通过Gemini API、Google AI Studio和Vertex AI以付费预览形式使用。
用户可以选择使用Nano banana(Gemini2.5 Flash Image)获取更快、更低成本的图像生成/编辑;或者使用Nano banana Pro(Gemini 3 Pro Image)处理更加复杂、要求更高的任务,但相应的成本与延迟也更高。
参考链接:
https://blog.google/technology/ai/nano-banana-pro/
想获取更多AI最新资讯与智能工具推荐, 欢迎访问 👉 AI Tools Nav ——优质的 AI导航平台 与 AI学习社区
本文来源:机器之心
原文链接:https://www.jiqizhixin.com/articles/76fe4f56-7670-41d4-ba51-d73a6b8e4e98