相机让所有人捕捉现实,
我们让所有人捕捉想象力。
"The camera allowed anyone to capture reality. You're kind of capturing people's imagination."
@nbrichtova · Google DeepMind
她从德勤的咨询业务起步,穿越 Google 消费级产品的大部队,最终走进 DeepMind,站在了人类视觉表达方式被重新定义的那个路口。她说——好玩不是目的,好玩是通往实用的入口。
2025 年 8 月的某个凌晨两点,Google DeepMind 团队正在准备把一个新的图像生成模型上传到 LMArena 做匿名盲测。按规矩,模型需要一个临时代号。
团队里的一位同事被追问:"叫什么名字?"她太累了,想了两秒钟,回了一个词——
没有人认真讨论过这个名字。没有品牌委员会评审、没有法务检查、没有焦点小组测试。一个疲惫的产品经理在深夜随手敲出的两个单词,后来成了 2025 年 AI 领域传播最广的名字之一。
Nicole Brichtova 在 Sequoia 的播客里复盘这段时说:
"A,它很好玩。B,很容易发音。C,它有 emoji。这对品牌传播来说是决定性的。"
— Sequoia Training Data Podcast · 2025但名字只是催化剂。真正让 Nano Banana 出圈的,是这个模型做到了一件过去所有图像生成模型都没做到的事——
你上传一张自拍,跟它说"把我放到红毯上",出来的人——真的长得像你。
这听起来理所应当,但在 Nicole 之前,没有模型能做到。所有模型生成的"你",都只是一个长得大概差不多的人。差在哪里?差在你自己看得出来。
Nano Banana 在 LMArena 匿名盲评中登顶第一。Jensen Huang 公开说"How good is that Nano Banana!"——Sundar Pichai 随即转发。一个凌晨两点随便起的代号,变成了 Google AI 近年来最成功的消费级产品时刻。
Nicole Brichtova 的履历,跟硅谷那种"斯坦福 CS → 创业 → 被收购"的经典路径完全不同。
她走的是一条更"慢热"的路,但每一步都在积蓄对"产品如何服务普通人"的洞察:
这条路径最有意思的地方在于——她不是一个技术出身的产品经理。
在大多数 AI 公司,视觉生成产品的负责人通常是前研究员或前工程师。Nicole 是从商业策略和用户洞察这条线杀进来的。这决定了她看模型的方式跟别人根本不同。
别人看到 Gemini 的一帧输出,问的是"CLIP score 多少?FID 多少?"Nicole 看到同一帧,问的是:"我妈能用吗?用完之后她会不会想再用第二次?"
在所有 AI 图像生成的技术指标里,有一个指标是最诡异的——
角色一致性(Character Consistency)。
它衡量的是:AI 生成一张你的图片,长得到底像不像你?但问题是——这件事没有客观评价标准。只有你自己知道。
Nicole 在 Sequoia 播客里讲了那个最关键的 a-ha 时刻:
"我拿了一张自己的照片,跟模型说:'把我放到红毯上。'它生成出来了——看起来就是我。然后我拿去跟之前所有模型对比,没有一个模型真正像我。我当场就激动了。"
— Nicole Brichtova · Sequoia Training Data Podcast但接下来发生的事更有意思:她把这张图拿给同事看,同事的反应是——
"嗯,是你在红毯上啊。然后呢?"
他们不理解为什么她这么激动。因为他们不认识她的脸。
"角色一致性没法量化评估,因为只有你自己才能判断 AI 画的你像不像你。你看别人的脸可能觉得差不多,但看自己的脸你会说:'不对,我的下巴不是这样的。'"
这个洞察直接改变了团队的评估方法——他们建立了一套以团队成员自己的脸为基准的人工评估体系。不是让不认识你的标注员打分,是让你自己看自己的脸,判断像不像。
这是 AI 产品开发中一个被严重低估的事实:有些产品体验的质量,只有用户本人能感知。任何量化指标都会漏掉那个"这就是我"的情感冲击。Nicole 的团队用一种看起来很"不科学"的方法——让所有人拿自己的脸测模型——解决了一个所有竞品都没解决的问题。
Nano Banana 刚出来的时候,最火的用法不是什么专业场景——是把自己变成 3D 手办。
红毯自拍、童年梦想职业、Q 版公仔、1980 年代美式购物中心风格照片……社交媒体上病毒式传播的全是这些"没什么用但特别好玩"的东西。
如果你是一个"正经"的产品经理,你可能会焦虑:这些都是噱头,留存怎么办?
Nicole 的判断完全相反——
"好玩是通往实用的入口。人们因为好玩进了 Gemini 的大门,然后他们发现这东西还能帮自己解数学题、编辑家庭照片、整理学习笔记。那些实用功能,他们自己发现的。"
— Sequoia Training Data Podcast她举了 Hansa(工程负责人)的例子:
"Hansa 的妈妈一开始就是因为好玩才用的。她做了一堆搞笑图片,开心得不行。然后她忽然发现——这东西能帮我把照片背景里的路人 P 掉。从那以后,她再也没卸载过。"
这个逻辑在传统产品方法论里是反直觉的。传统 PM 会说"先解决痛点,再做锦上添花"。Nicole 说的是:在 AI 时代,锦上添花本身就是入口——因为 AI 的痛点解决方案太难被发现了,用户根本不知道它能干什么。
还有一个更深的层面——"好玩"降低了 AI 的心理门槛。
"AI 对很多人来说是吓人的。但如果你的入口是'把你变成一个香蕉人',就没有人会害怕了。你试了一次,发现很简单,然后你开始觉得:也许 AI 没那么难。"
Hansa 的父母、Hansa 的叔叔阿姨们——这些从来没用过 AI 的人,因为 Nano Banana 开始用 Gemini。然后他们留下来了,因为他们发现自己可以用它做很多事。
这是 Nicole 给所有 AI 产品人的一课:不要低估"好玩"的战略价值。在一个用户不知道自己需要什么的品类里,情绪驱动的传播比功能驱动的教育有效一百倍。
在 AI 行业,大家最爱聊的是架构和规模——多少参数、多少数据、Transformer 还是 Diffusion。
Nicole 说了一句在整个行业里很少有人说的话:
"AI 有一个 craft 的部分——手艺、匠心——但我们很少谈论它。我觉得它极其重要。"
— Sequoia Training Data Podcast她所说的 craft,是什么?
Hansa 在旁边补了一句话,把它讲透了:
"不是往模型里灌大量数据就行了。在每一个决策点上的细节导向的高质量,才是区分好模型和突破性模型的东西。"
具体到 Nano Banana,这种 craft 体现在三个层面:
"我们很多进步,归根结底是因为团队里有人对某个问题上了头。比如文字渲染,我们有个人就是痴迷于让图片里的文字不再像外星语。他一个人把这件事推到了一个之前不可能的水平。"
这个模型被定位为"会话式编辑器"。一个会话式编辑器如果每次生成要等 2 分钟,体验就断了——你没法"对话"一个要等 2 分钟才回话的人。
所以从训练之初,团队就把推理速度当作设计参数,而不是训练后的优化目标。结果是:Nano Banana 大约十几秒生成一张图,足够支撑多轮对话式编辑。
之前 Google 做 Imagen 系列时,走的是窄优化路线——每个变体针对特定需求(高质量单图、快速输出、性价比最高的方案)。
Nano Banana 转向了泛化优先:让基础模型在视觉信息上有更好的通用推理能力,然后惊喜会自己涌现出来。
"有人在模型里画了一道几何题,然后问它:这个角是多少度?模型不仅看懂了,还直接在图上标注了答案。这不是我们专门训练的——这是一个有泛化能力的模型自己学会的。"
Nicole 不用"前沿"、"突破"、"颠覆"这些 AI 行业的标准话术。她用了一个传统手工业的词:craft——匠心。在一个所有人都在比参数量和 benchmark 分数的行业里,她把竞争力归因于"每一个决策点上的细节导向的高质量"。这个视角本身,就是她和其他 AI 产品负责人最大的区别。
在 Sequoia 的播客里,主持人问 Nicole:Imagen、Veo、Nano Banana、Gemini 之间到底是什么关系?
她的回答非常清晰,像一幅路线图:
"我们的目标一直是打造一个最强大的单一模型,能接收任何模态的输入,转化为任何模态的输出。这是北极星。我们显然还没到那里。"
— Sequoia Training Data Podcast在通往那个北极星的路上,策略是什么?
她给了一个非常有用的时间参照:
为什么?因为图像只有一帧,训练成本和推理成本都远低于视频。所以图像是所有模态能力的"先行指标"——你在图像上看到的突破,6-12 个月后会出现在视频上。
这个判断对产品人和创业者的含义是巨大的:
Nicole 把自己的产品线定义为"通向 AGI 的台阶"。每一个专门模型都是一级台阶:先在窄领域证明可行,再把能力融进统一模型。Nano Banana 不是终点——它是 Gemini 学会"看"和"画"的起跑线。
如果你用过 Nano Banana,你会发现一个很搞笑的事:那些在社交媒体上刷屏的神级图片,背后的 prompt 通常有一百个词。
用户复制粘贴这些超长 prompt 到 Gemini 里,花十几秒等生成,效果惊艳——然后再花五分钟调 prompt、重新生成、再调……
Nicole 对这件事的判断非常清醒:
"人们现在愿意花这个力气,是因为回报太大了。但我们必须度过这个 prompt engineering 阶段。对消费者来说,东西就应该一句话就好使。"
— Sequoia Training Data Podcast她对未来产品形态的判断分三个层次,每一层都指向同一个结论——聊天框不够用了。
"聊天框是一个很好的入口,因为不用学新 UI,直接说话就行。但对视觉创作来说,它开始变得不够用了。未来的视觉创作画布是什么样子——这是一个巨大的产品机会。"
Nicole 用了一个非常精准的频谱来描述未来用户和 AI 的协作模式:
她的判断是:同一个用户在不同场景下会在这个频谱上来回移动。一个好的产品应该同时支持两端——既能完全放手让 AI 跑,又能在你想介入的时候提供像素级的控制。
Nicole 观察到,今天的创意工作者在四五个工具之间跳来跳去:
她给创业者的机会判断非常直白:"把这些碎片化的工作流统一起来,做成垂直领域的创作工具——这是现在最大的产品机会之一。"
挑出她在 Sequoia Training Data、Google Developers 和公开场合里最动人的 10 句,每一张都可以单独拎出来发朋友圈、发 X、发小红书。
相机让所有人捕捉现实,
我们让所有人捕捉想象力。
"The camera allowed anyone to capture reality. You're kind of capturing people's imagination."
好玩不是副产品,
好玩是通往实用的入口。
"Fun is a gateway to utility, not a distraction."
只有你自己
才能判断 AI 画的你
像不像你。
"You can really only judge character consistency on yourself."
AI 有一个匠心的部分,
但我们很少谈论它。
我觉得它极其重要。
"It's the craft part of AI, which we don't talk about a lot, but I think it's super important."
细节导向的高质量,
才是区分好模型
和突破性模型的东西。
"Detail orientedness of high quality separates good models from breakthrough ones."
我们必须度过
prompt engineering 阶段。
消费者不该学会写提示词。
"We have to get past this prompt engineering phase for consumers."
没有理由你和我
要从同一本教科书学习——
但这就是我们现在的教育。
"There's no reason why you and I should be learning from the same textbook."
核心建模团队很小,
但要发货——
得靠一个小国家。
"To ship it, we're joking that it takes a small country."
你说五到十年后?
在这个行业,
那感觉像二十年后。
"Five to ten years from now feels like twenty years from now."
我们真的让人们
讲出了他们从来讲不出来的故事。
"We're really now making it possible to tell stories that you never could."
回头看 Nicole 这条路径,会发现一个有趣的贯穿线——
在德勤,她把复杂的商业逻辑可视化成 PPT,让不懂技术的高管秒懂。在 Google 消费产品团队,她把技术能力翻译成用户能理解的功能。在 DeepMind,她把模型的可能性翻译成普通人的视觉表达力。
每一步都是同一件事——把复杂的东西,变成别人能用的东西。
只是介质换了:从 PPT 到产品,再到像素。
这段话是她在 Sequoia 播客的最后时刻说出来的。没有刻意升华,没有押韵的金句,是一段自然流淌的感慨。但它精确地描述了她——以及所有 AI 时代最好的产品经理——在做的事情的本质:
不是做技术 demo。不是追 benchmark。不是卷参数量。
是让一个从来没画过画的人,能把脑子里那幅画拿出来给别人看。
是让一个爸爸和他搞化学的儿子,终于能聊一次他的研究——因为 AI 把那些抽象的论文变成了两个人都看得懂的素描笔记。
是让一个三岁的小孩把自己想象成超级英雄——然后真的在屏幕上看到了穿着斗篷的自己。