用语言精修每一个像素 · Nicole Brichtova 和她的 Nano Banana

01 // 一根香蕉，炸了整个互联网

凌晨两点的代号，变成了全球现象

2025 年 8 月的某个凌晨两点，Google DeepMind 团队正在准备把一个新的图像生成模型上传到 LMArena 做匿名盲测。按规矩，模型需要一个临时代号。

团队里的一位同事被追问："叫什么名字？"她太累了，想了两秒钟，回了一个词——

Nano Banana 🍌

没有人认真讨论过这个名字。没有品牌委员会评审、没有法务检查、没有焦点小组测试。一个疲惫的产品经理在深夜随手敲出的两个单词，后来成了 2025 年 AI 领域传播最广的名字之一。

Nicole Brichtova 在 Sequoia 的播客里复盘这段时说：

"A，它很好玩。B，很容易发音。C，它有 emoji。这对品牌传播来说是决定性的。"

— Sequoia Training Data Podcast · 2025

但名字只是催化剂。真正让 Nano Banana 出圈的，是这个模型做到了一件过去所有图像生成模型都没做到的事——

你上传一张自拍，跟它说"把我放到红毯上"，出来的人——真的长得像你。

这听起来理所应当，但在 Nicole 之前，没有模型能做到。所有模型生成的"你"，都只是一个长得大概差不多的人。差在哪里？差在你自己看得出来。

Nano Banana 在 LMArena 匿名盲评中登顶第一。Jensen Huang 公开说"How good is that Nano Banana!"——Sundar Pichai 随即转发。一个凌晨两点随便起的代号，变成了 Google AI 近年来最成功的消费级产品时刻。

▼ ▼ ▼

02 // 她的路径：PPT → 像素 → 想象力

从做 PPT 的顾问，到定义人类视觉表达方式的人

Nicole Brichtova 的履历，跟硅谷那种"斯坦福 CS → 创业 → 被收购"的经典路径完全不同。

她走的是一条更"慢热"的路，但每一步都在积蓄对"产品如何服务普通人"的洞察：

本科

Georgetown University

华盛顿特区的名校，以国际关系和公共政策见长。不是理工科出身——这在后来被证明是她最大的优势之一。

MBA

Duke University · Fuqua School of Business

杜克大学富卡商学院。MBA 训练让她习惯了用商业框架拆解问题——后来做 AI 产品时，"用户是谁、场景是什么、为什么现在"这套逻辑刻在骨子里。

职业早期

Deloitte · 管理咨询顾问

为财富 500 强科技公司提供创新和增长策略建议。"我职业生涯的起点就是做很多 PPT。我现在仍然在做很多 PPT。"——她在播客里自嘲。这段经历给了她一个看问题的视角：技术再牛，如果讲不清楚、用不起来，就等于不存在。

Google · 消费产品

Google · Product & Market Strategy

在 Google 的消费者产品团队做产品和市场策略，参与多个项目的规划和推广。真正学会了"大公司里如何让一个想法落地"。

至今

Google DeepMind · Group Product Manager, Visual Generation

领导视觉生成产品线：Imagen 系列、Gemini 原生图像生成、Nano Banana（Gemini 2.5 Flash Image）、Veo 视频生成。从单一模态到多模态统一，从技术 demo 到消费级爆品。

这条路径最有意思的地方在于——她不是一个技术出身的产品经理。

在大多数 AI 公司，视觉生成产品的负责人通常是前研究员或前工程师。Nicole 是从商业策略和用户洞察这条线杀进来的。这决定了她看模型的方式跟别人根本不同。

别人看到 Gemini 的一帧输出，问的是"CLIP score 多少？FID 多少？"Nicole 看到同一帧，问的是："我妈能用吗？用完之后她会不会想再用第二次？"

▼ ▼ ▼

03 // 角色一致性：只有你自己才能判断的指标

"只有你能判断 AI 画的你像不像你"

在所有 AI 图像生成的技术指标里，有一个指标是最诡异的——

角色一致性（Character Consistency）。

它衡量的是：AI 生成一张你的图片，长得到底像不像你？但问题是——这件事没有客观评价标准。只有你自己知道。

Nicole 在 Sequoia 播客里讲了那个最关键的 a-ha 时刻：

"我拿了一张自己的照片，跟模型说：'把我放到红毯上。'它生成出来了——看起来就是我。然后我拿去跟之前所有模型对比，没有一个模型真正像我。我当场就激动了。"

— Nicole Brichtova · Sequoia Training Data Podcast

但接下来发生的事更有意思：她把这张图拿给同事看，同事的反应是——

"嗯，是你在红毯上啊。然后呢？"

他们不理解为什么她这么激动。因为他们不认识她的脸。

"角色一致性没法量化评估，因为只有你自己才能判断 AI 画的你像不像你。你看别人的脸可能觉得差不多，但看自己的脸你会说：'不对，我的下巴不是这样的。'"

这个洞察直接改变了团队的评估方法——他们建立了一套以团队成员自己的脸为基准的人工评估体系。不是让不认识你的标注员打分，是让你自己看自己的脸，判断像不像。

这是 AI 产品开发中一个被严重低估的事实：有些产品体验的质量，只有用户本人能感知。任何量化指标都会漏掉那个"这就是我"的情感冲击。Nicole 的团队用一种看起来很"不科学"的方法——让所有人拿自己的脸测模型——解决了一个所有竞品都没解决的问题。

▼ ▼ ▼

04 // "好玩"不是副产品，是战略

Fun Is a Gateway to Utility好玩是通往实用的入口

Nano Banana 刚出来的时候，最火的用法不是什么专业场景——是把自己变成 3D 手办。

红毯自拍、童年梦想职业、Q 版公仔、1980 年代美式购物中心风格照片……社交媒体上病毒式传播的全是这些"没什么用但特别好玩"的东西。

如果你是一个"正经"的产品经理，你可能会焦虑：这些都是噱头，留存怎么办？

Nicole 的判断完全相反——

"好玩是通往实用的入口。人们因为好玩进了 Gemini 的大门，然后他们发现这东西还能帮自己解数学题、编辑家庭照片、整理学习笔记。那些实用功能，他们自己发现的。"

— Sequoia Training Data Podcast

她举了 Hansa（工程负责人）的例子：

"Hansa 的妈妈一开始就是因为好玩才用的。她做了一堆搞笑图片，开心得不行。然后她忽然发现——这东西能帮我把照片背景里的路人 P 掉。从那以后，她再也没卸载过。"

这个逻辑在传统产品方法论里是反直觉的。传统 PM 会说"先解决痛点，再做锦上添花"。Nicole 说的是：在 AI 时代，锦上添花本身就是入口——因为 AI 的痛点解决方案太难被发现了，用户根本不知道它能干什么。

// 传统逻辑

先解决痛点 → 再做好玩的

用户带着明确问题来，产品解决问题，用户留下来。好玩是附加值。

// Nicole 的逻辑

先好玩 → 用户进来 → 自己发现实用

用户没有明确问题，AI 的能力边界他自己都不知道。好玩是发现机制。

还有一个更深的层面——"好玩"降低了 AI 的心理门槛。

"AI 对很多人来说是吓人的。但如果你的入口是'把你变成一个香蕉人'，就没有人会害怕了。你试了一次，发现很简单，然后你开始觉得：也许 AI 没那么难。"

Hansa 的父母、Hansa 的叔叔阿姨们——这些从来没用过 AI 的人，因为 Nano Banana 开始用 Gemini。然后他们留下来了，因为他们发现自己可以用它做很多事。

这是 Nicole 给所有 AI 产品人的一课：不要低估"好玩"的战略价值。在一个用户不知道自己需要什么的品类里，情绪驱动的传播比功能驱动的教育有效一百倍。

▼ ▼ ▼

05 // 她眼里的产品哲学

Craft 才是 AI 的秘密武器

在 AI 行业，大家最爱聊的是架构和规模——多少参数、多少数据、Transformer 还是 Diffusion。

Nicole 说了一句在整个行业里很少有人说的话：

"AI 有一个 craft 的部分——手艺、匠心——但我们很少谈论它。我觉得它极其重要。"

— Sequoia Training Data Podcast

她所说的 craft，是什么？

Hansa 在旁边补了一句话，把它讲透了：

"不是往模型里灌大量数据就行了。在每一个决策点上的细节导向的高质量，才是区分好模型和突破性模型的东西。"

具体到 Nano Banana，这种 craft 体现在三个层面：

▸ Craft 第一层：有人"痴迷"于每个细分问题

"我们很多进步，归根结底是因为团队里有人对某个问题上了头。比如文字渲染，我们有个人就是痴迷于让图片里的文字不再像外星语。他一个人把这件事推到了一个之前不可能的水平。"

▸ Craft 第二层：推理速度也是产品设计

这个模型被定位为"会话式编辑器"。一个会话式编辑器如果每次生成要等 2 分钟，体验就断了——你没法"对话"一个要等 2 分钟才回话的人。

所以从训练之初，团队就把推理速度当作设计参数，而不是训练后的优化目标。结果是：Nano Banana 大约十几秒生成一张图，足够支撑多轮对话式编辑。

▸ Craft 第三层：泛化能力 > 窄优化

之前 Google 做 Imagen 系列时，走的是窄优化路线——每个变体针对特定需求（高质量单图、快速输出、性价比最高的方案）。

Nano Banana 转向了泛化优先：让基础模型在视觉信息上有更好的通用推理能力，然后惊喜会自己涌现出来。

"有人在模型里画了一道几何题，然后问它：这个角是多少度？模型不仅看懂了，还直接在图上标注了答案。这不是我们专门训练的——这是一个有泛化能力的模型自己学会的。"

Nicole 不用"前沿"、"突破"、"颠覆"这些 AI 行业的标准话术。她用了一个传统手工业的词：craft——匠心。在一个所有人都在比参数量和 benchmark 分数的行业里，她把竞争力归因于"每一个决策点上的细节导向的高质量"。这个视角本身，就是她和其他 AI 产品负责人最大的区别。

▼ ▼ ▼

06 // 北极星：一个模型，所有模态

图像领先视频 6-12 个月，终局是万物互转

在 Sequoia 的播客里，主持人问 Nicole：Imagen、Veo、Nano Banana、Gemini 之间到底是什么关系？

她的回答非常清晰，像一幅路线图：

"我们的目标一直是打造一个最强大的单一模型，能接收任何模态的输入，转化为任何模态的输出。这是北极星。我们显然还没到那里。"

— Sequoia Training Data Podcast

在通往那个北极星的路上，策略是什么？

Imagen窄优化 · 文生图 · 多变体覆盖速度、质量、成本

Nano Banana泛化优先 · Gemini 原生 · 消费级爆品入口

Veo视频生成 · 专业创作者 · Veo 3 首次引入音频

Genie 3实时 3D 世界导航 · 交互式世界模型

她给了一个非常有用的时间参照：

图像总是比视频领先 6 到 12 个月。

为什么？因为图像只有一帧，训练成本和推理成本都远低于视频。所以图像是所有模态能力的"先行指标"——你在图像上看到的突破，6-12 个月后会出现在视频上。

这个判断对产品人和创业者的含义是巨大的：

如果今天 Nano Banana 能做到单图角色一致性，那 6-12 个月后，视频模型也能做到跨场景角色一致性——这意味着"AI 拍电影"离主流更近了一大步。
如果今天图像模型能在图上渲染正确文字，那明年视频模型就能在画面里渲染正确字幕。
专门模型（Imagen、Veo）是试验场——在单一模态上推前沿，然后把学到的东西回灌进 Gemini。最终 Gemini 应该能做所有这些事。

Nicole 把自己的产品线定义为"通向 AGI 的台阶"。每一个专门模型都是一级台阶：先在窄领域证明可行，再把能力融进统一模型。Nano Banana 不是终点——它是 Gemini 学会"看"和"画"的起跑线。

▼ ▼ ▼

07 // 她对未来的判断：聊天框不够用了

"我们需要度过 prompt engineering 阶段"

如果你用过 Nano Banana，你会发现一个很搞笑的事：那些在社交媒体上刷屏的神级图片，背后的 prompt 通常有一百个词。

用户复制粘贴这些超长 prompt 到 Gemini 里，花十几秒等生成，效果惊艳——然后再花五分钟调 prompt、重新生成、再调……

Nicole 对这件事的判断非常清醒：

"人们现在愿意花这个力气，是因为回报太大了。但我们必须度过这个 prompt engineering 阶段。对消费者来说，东西就应该一句话就好使。"

— Sequoia Training Data Podcast

她对未来产品形态的判断分三个层次，每一层都指向同一个结论——聊天框不够用了。

▸ 层次一：从文字交互到视觉画布

"聊天框是一个很好的入口，因为不用学新 UI，直接说话就行。但对视觉创作来说，它开始变得不够用了。未来的视觉创作画布是什么样子——这是一个巨大的产品机会。"

▸ 层次二：从"手动创作"到"完全托管"的频谱

Nicole 用了一个非常精准的频谱来描述未来用户和 AI 的协作模式：

// 频谱左端 · 完全托管

让 AI 去做，我不想管

比如给老板做周报 PPT：你给会议纪要和几个要点，AI 去做幻灯片、排版、配图。你不想参与创作过程。

⟷

// 频谱右端 · 精细控制

我要亲手参与每个细节

比如设计自己的房子：你想亲手调材质、换颜色、拆墙看效果。你享受创作本身。

她的判断是：同一个用户在不同场景下会在这个频谱上来回移动。一个好的产品应该同时支持两端——既能完全放手让 AI 跑，又能在你想介入的时候提供像素级的控制。

▸ 层次三：创意工具碎片化的统一

Nicole 观察到，今天的创意工作者在四五个工具之间跳来跳去：

用 LLM 来构思概念（"给我十个创意方向"）
用图像模型来做关键帧（"把这个概念变成画面"）
用视频模型来生成动态（"让这个画面动起来"）
用音乐/音效工具来配音配乐
最后用 Premiere / DaVinci 来做剪辑和精修

她给创业者的机会判断非常直白："把这些碎片化的工作流统一起来，做成垂直领域的创作工具——这是现在最大的产品机会之一。"

// SHAREABLE.cards

10 张金句卡片 · Nicole & Hansa 语录

挑出她在 Sequoia Training Data、Google Developers 和公开场合里最动人的 10 句，每一张都可以单独拎出来发朋友圈、发 X、发小红书。

01 / 10

// IMAGINATION · CAPTURE

相机让所有人捕捉现实，
我们让所有人捕捉想象力。

"The camera allowed anyone to capture reality. You're kind of capturing people's imagination."

— Sequoia Training Data Podcast
@nbrichtova · Google DeepMind

02 / 10

// FUN · STRATEGY

好玩不是副产品，
好玩是通往实用的入口。

"Fun is a gateway to utility, not a distraction."

— Sequoia Training Data Podcast
论 Nano Banana 的产品策略

03 / 10

// IDENTITY · EVAL

只有你自己
才能判断 AI 画的你
像不像你。

"You can really only judge character consistency on yourself."

— Sequoia Training Data Podcast
论角色一致性的评估困境

04 / 10

// CRAFT · AI

AI 有一个匠心的部分，
但我们很少谈论它。
我觉得它极其重要。

"It's the craft part of AI, which we don't talk about a lot, but I think it's super important."

— Sequoia Training Data Podcast
论 AI 产品的隐性竞争力

05 / 10

// DETAIL · QUALITY

细节导向的高质量，
才是区分好模型
和突破性模型的东西。

"Detail orientedness of high quality separates good models from breakthrough ones."

— Hansa Srinivasan · Sequoia
Nano Banana 工程负责人补充

06 / 10

// PROMPT · EVOLUTION

我们必须度过
prompt engineering 阶段。
消费者不该学会写提示词。

"We have to get past this prompt engineering phase for consumers."

— Sequoia Training Data Podcast
论 AI 产品的下一个进化

07 / 10

// LEARNING · PERSONALIZATION

没有理由你和我
要从同一本教科书学习——
但这就是我们现在的教育。

"There's no reason why you and I should be learning from the same textbook."

— Sequoia Training Data Podcast
论个性化视觉学习的未来

08 / 10

// SHIPPING · SCALE

核心建模团队很小，
但要发货——
得靠一个小国家。

"To ship it, we're joking that it takes a small country."

— Sequoia Training Data Podcast
论大模型产品的发布复杂度

09 / 10

// SPEED · FUTURE

你说五到十年后？
在这个行业，
那感觉像二十年后。

"Five to ten years from now feels like twenty years from now."

— Sequoia Training Data Podcast
论 AI 行业的时间感知扭曲

10 / 10

// STORIES · NEVER TOLD

我们真的让人们
讲出了他们从来讲不出来的故事。

"We're really now making it possible to tell stories that you never could."

— Sequoia Training Data Podcast
论视觉 AI 对个人表达的意义

💡 点击任意一张卡片放大查看 · 支持保存为图片分享到朋友圈 / 小红书

// EOF · 写在最后

从顾问出发的人，
在帮人类重新定义"看"

回头看 Nicole 这条路径，会发现一个有趣的贯穿线——

在德勤，她把复杂的商业逻辑可视化成 PPT，让不懂技术的高管秒懂。在 Google 消费产品团队，她把技术能力翻译成用户能理解的功能。在 DeepMind，她把模型的可能性翻译成普通人的视觉表达力。

每一步都是同一件事——把复杂的东西，变成别人能用的东西。

只是介质换了：从 PPT 到产品，再到像素。

"相机让所有人都能捕捉现实——
当它变得足够普及的时候。
而我们在做的，是捕捉人们的想象力。
给他们工具，让脑子里的画面
能够以视觉的方式出现在纸上——
以前他们做不到，因为没有工具，
或者不知道工具怎么用。
这真的很棒。"

这段话是她在 Sequoia 播客的最后时刻说出来的。没有刻意升华，没有押韵的金句，是一段自然流淌的感慨。但它精确地描述了她——以及所有 AI 时代最好的产品经理——在做的事情的本质：

不是做技术 demo。不是追 benchmark。不是卷参数量。

是让一个从来没画过画的人，能把脑子里那幅画拿出来给别人看。

是让一个爸爸和他搞化学的儿子，终于能聊一次他的研究——因为 AI 把那些抽象的论文变成了两个人都看得懂的素描笔记。

是让一个三岁的小孩把自己想象成超级英雄——然后真的在屏幕上看到了穿着斗篷的自己。

🍌 nano-banana --imagine 好玩是入口，匠心是底牌，想象力是终局。
她要让每一个人都能"看见"自己脑子里的画面。

参考资料 · references

How Google's Nano Banana Achieved Breakthrough Character Consistency — Sequoia Training Data × Nicole Brichtova & Hansa Srinivasan PODCAST · 2025 · 一手主访谈
谷歌 Nano Banana 全网刷屏，起底背后团队 — 机器之心 / 36kr 报道 · 2025.08.29
4 Tips for Using Nano Banana to Create Amazing Images — Google Blog 官方教程 · 2025
Experiment with Gemini 2.0 Flash Native Image Generation — Google Developers Blog × Nicole Brichtova 技术博客 · 2025.03
Nicole Brichtova · LinkedIn 个人主页 LINKEDIN
@nbrichtova · Nicole Brichtova 本人 X 账号 SOCIAL
"How good is that Nano Banana!" — Jensen Huang 赞赏引 Sundar Pichai 转发 · Economic Times 报道 · 2025
谷歌 Nano Banana 全网刷屏，起底背后团队 — 腾讯云开发者社区深度整理 · 中文
Building with Gemini 2.0: Native Image Output — Nicole Brichtova LinkedIn 公告公告 · 2024.12

// 专题 04 · AI 时代的产品经理 · 乔十秋整理 · 2026.04
所有内容基于公开资料整理 · 欢迎讨论与转载

凌晨两点的代号，变成了全球现象

从做 PPT 的顾问，到定义人类视觉表达方式的人

"只有你能判断 AI 画的你像不像你"

Fun Is a Gateway to Utility好玩是通往实用的入口

Craft 才是 AI 的秘密武器

▸ Craft 第一层：有人"痴迷"于每个细分问题

▸ Craft 第二层：推理速度也是产品设计

▸ Craft 第三层：泛化能力 > 窄优化

图像领先视频 6-12 个月，终局是万物互转

"我们需要度过 prompt engineering 阶段"

▸ 层次一：从文字交互到视觉画布

▸ 层次二：从"手动创作"到"完全托管"的频谱

▸ 层次三：创意工具碎片化的统一

10 张金句卡片 · Nicole & Hansa 语录

从顾问出发的人，在帮人类重新定义"看"

参考资料 · references

从顾问出发的人，
在帮人类重新定义"看"