这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。
去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的效果只能算是凑合能用。
这周,我将同样的任务给到了Nano Banana执行,只告诉它「把人物手中拿的玩具火车换成玩具飞机」,甚至没有准备另外一张玩具飞机的照片,就在20多秒后得到了一张新的照片。这张照片里只替换了玩具火车,没有对照片的其他部分有任何多余的修改,也没有让人物的手指消失或增加。
这种体验的变化会让我想到第一次使用DeepSeek时的感受——我已经知道可以和AI随意聊天,但没想到和我聊天的AI能变得这么聪明。同样的,我早已经习惯使用AI生成各种图片,但还没见过AI能如此精准地对图片进行编辑和调整。
就像DeepSeek凭借深度思考能力展示出了AI的应用前景一样,Nano Banana展现出来的更具确定性的图像创作能力,也会让大众更广泛地使用AI处理图像相关的任务。
目前,社交媒体上已经出现了大量使用Nano Banana制作的手办模型、OOTD、换装图片,还有用户已经在用Nano Banana配合视频生成大模型进行视频内容的生成。这不是又一种「吉卜力风格」滤镜的流行,而是一种更高效、更通用的图像创作能力的普及。
这种模型能力可以支撑更多产品创新的实现。不仅是在Gemini上,未来的很多产品上都可能会出现Nano Banana或相似模型的影子。
但这也会需要模型厂商像Nano Banana一样从多模态的视角,更综合地思考如何增强模型的图像创作能力。
AI时代的美图秀秀是一种能力
使用Nano Banana调整图像的感觉,非常像早期从PhotoShop切换到美图秀秀的感觉。在使用PhotoShop美化照片时,需要牢记不同的操作步骤,没有使用基础的用户每次修图都需要先百度一下教程。但使用美图秀秀美化照片,可能只需要几次点击或者拖拽,没有基础的用户也能快速上手。
现在,Nano Banana让普通用户可以通过一句话就实现对图片的精准调整和修改。这是图像创作领域的又一次革命。不同的是,从PhotoShop到美图秀秀的过程更多是产品思路的变化,将一系列固定操作变成一次点击或拖拽;而Nano Banana带来的是一种能力,让AI具备理解图像、编辑图像的能力。
在Nano Banana团队的介绍中,这种能力的实现有两个关键点:
原生多模态架构。这个架构让Nano Banana能够同时理解和处理包括文本、图像在内的上下文,并在上下文中获取像素级的信息,以此来实现像素级精确编辑(Pixel Perfect Editing)。这样就能保证Nano Banana对图片的调整可以精确到某个具体元素。
交错生成(Interleaved Generation)。在做到像素级精确编辑的基础上,Nano Banana可以将复杂的提示词拆解为多个步骤,逐步完成修改。Nano Banana团队认为,这是一次范式的变化,可以让模型用增量生成的方式,分步构建出复杂的图像,而不是像传统方法一样,挑战模型的上限,让其一次性生成最终答案。
某种程度上,这是通过模型定义实现的一种更近似Agent的能力。DeepSeek能够推动AI的广泛应用,本质上也是利用深度思考能力完成了对提示语的拆解,然后进行分步执行,得到更符合要求的成果。Nano Banana的逻辑也是如此,通过更精确的理解和更细致的任务拆分,实现了高度一致性的图像编辑。
在此基础上,Nano Banana也做到了成本低、速度快。在Google的介绍中,Nano Banana的定价为30美元/百万token,每张图片生成所需的token在1290个左右,成本约合0.039美元。
并且,Nano Banana生成一张图片的时间在十几秒到几十秒之内。快速生成配合精确的调整能力,共同支撑了用户的迭代创作,使其可以不断进行尝试和调整,接近理想中的目标。
出色能力会催生更广泛的应用
从我自己的体验来看,Nano Banana可以轻松地帮我给哪吒穿上豆豆鞋,也可以参考搜索到的打斗镜头,生成路飞和艾斯的打斗场面。可能并不是所有结果都会让我满意,比如有一次生成的图片中路飞要比艾斯小不少,还有当我让它调整之前的生成结果时,输出的图像没有任何变化。
但是,这并不妨碍我认为Nano Banana可以成为构建AI图像应用的一项基础能力,或者带来某些已有体验的进一步升级和广泛使用。
第一类应用就是虚拟试衣,Nano Banana提供的能力可以让用户看到自己想尝试的穿搭的更真实的上身效果,吸引更多人来使用这个功能。
《福布斯》的一篇报道则认为,Nano Banana保持角色一致的能力,可以提高创作者和工作室创作故事板、儿童读物和漫画的效率;降低商品宣传物料的制作成本,拍一次产品图,可以生成不同场景的宣传海报;室内设计师可以根据房间照片随时调整装修效果,给到用户更及时、低成本的服务。
Nano Banana的发布也在进一步提高图生视频的上限。创作者可以根据Nano Banana进行更精准的首尾帧调整,让视频的生成结果更接近预期,然后将各个片段剪辑拼接起来,成为一个完整的视频。目前更快被大众所见的是很多视频创作产品利用Nano Banana的能力,让用户可以调整照片,生成效果更好的换脸视频。
这些应用探索,基本都是将Nano Banana的基础能力与某些领域的隐性知识相互结合,降低用户在某些特定图像需求上的使用门槛。虽然Google会将Nano Banana集成到Gemini中,让其成为通用助手的一项基础能力,但通用助手并不是万能的,有时并不能提供特定行业的隐性知识。
需要有更多应用来帮助Nano Banana增加对行业隐性知识的理解。知名投行摩根士丹利分析「美图是否会受到Nano Banana影响」时认为,美图真正的价值在于提供了基础AI模型无法企及的「最后一公里」解决方案。
当然,这种解决方案会随着模型能力的提升变得越来越细分,越来越倾向于针对一项具体任务提供更极致的服务。这可能会激发出更大量的创新,让图像相关的AI应用变得专业且广泛。
就像美图在未来可能会成为一个不同类型图像工具的集合,向用户出售隐性知识,而不再是一个基础的修图工具,靠免费功能吸引用户高频使用。
做好Nano Banana是更综合的竞争
本质上,Nano Banana团队不是在做一个图像生成模型,而是在把多模态能力应用在图像创作领域。
Nano Banana团队认为,Gemini和Google的图像生成模型Imagen的区别在于,Gemini致力于融合多种模态,最终实现AGI,但Imagen就是专注于图像生成。
如果用户只想高效生成高质量的美丽图像,Imagen就是最佳选择。而如果用户还希望在图像生成基础上进行一些编辑,生成更多创意构思,甚至获得更有创造性的结果,Gemini会是更好的选择。
面向未来,Nano Banana团队会期待模型更有智能感(Smartness)和事实性 (Factuality)。
智能感是指当用户给出的指令不够清晰或者对现实的理解不够准确时,Nano Banana能够让结果和真实的世界保持一致。这样的结果虽然偏离了用户的指示,但却能够得到更正确的或更好的效果,会让用户觉得Nano Banana是很聪明的。
事实性是指Nano Banana不仅能够创作美丽的图像,还能生成准确无误的图标、信息图和示意图,甚至是直接为用户生成PPT页面。这就需要Nano Banana不仅是在图像元素上,而且是在文字、数据上做到精准。
这两个目标的实现,都需要依托于Gemini的世界知识来实现对多模态上下文的理解。比如,Nano Banana能够理解我要添加的玩具飞机是什么,以及理解精神小伙的穿搭风格有什么特点等。
对Google而言,Nano Banana的成功是因为搭建起了一种理解与生成之间的协同。Gemini的图像理解能力,会帮助大模型在文字之外,从图像、视频中学习更多世界知识,然后这些知识会辅助其更准确地理解与执行图像生成的指令。
这也意味着,融汇贯通不同的模型能力,在正确的机制下,更有可能带来大模型能力的跃升。一定程度上,这不仅是模型集群的胜利,而是企业组织、创新机制的胜利。