实测谷歌Gemini 3 ,多模态、编程及 Agent 能力全面升级
作者:佚名 时间:2025-11-20 19:10

万众期待的 Gemini 3,终于来了!这次是推理、多模态、编程及 Agent 能力全面升级。
GooGle DeepMind 表示:这是全球最好的多模态理解模型,也是我们迄今最强大的智能体和 Vibe Coding 模型。

刚一发布,Gemini 3 几乎屠榜了所有的基准测试,还在 LMArena 人类盲测榜上首次突破1500 Elo得分,Gork 4.1刚登顶没多久就被挤下来了!

Polymarket 上关于「到 2025年底哪家公司拥有最好的 AI 模型?」的讨论,Google Gemini 拿下近90%的投票遥遥领先。

分确实是高,不过还是过一遍手才能知道是不是有真东西,我们一起实测一下。
体验地址:https://aistudio.google.com/
01. 实测case
case1 图像理解
提示词:尽可能精确地用语言描述这张图片,并生成一段可复现该图像的完整提示词。

Gemini 3准确地识别出这是一张角色设计图,详细分析了图片的构图布局、角色特征、服饰细节和艺术风格,信息识别蛮准的。

Gemini 3给出的完整提示词是这样的:
Character design sheet, multiple views including full body front, full body back, head close-up, and hand details. A beautiful young Chinese woman wearing a stylized black ink-wash painting long dress with translucent tulle sleeves. She is adorned with heavy, intricate traditional Miao ethnic silver jewelry, including a large layered silver neck ring, chest chains, and a floral silver headdress with tassels. High bun hairstyle. The dress features a wet-on-wet watercolor texture, black ink gradients, and ethnic geometric embroidery on cuffs. White background. Fashion illustration style, watercolor and ink art style, elegant, ethereal, high quality, detailed character concept art. –ar 3:4 –v 6.0
生成的图片风格和原图几乎一模一样,衣服中的薄纱、人物头上、身上的银饰这些元素都还原了。虽然画面细节和布局上还有一些差异,不过我觉得能还原到这个程度相当不错了。
case2 文字识别
朋友发给我一张图片,他说自己当初学数据分析的时候做了笔记,现在想重新翻出来看看,已经很难认清到底写了什么。
我们发给Gemini 3识别看看。
提示词:提取图片中的文案内容,并保持原文的排版结构和符号。
Gemini 3 几秒钟就识别出这是一份关于 Power Query 的函数处理操作:

符号和文字识别准确率挺高的,很多字我都认不出是什么,Gemini 3都识别出来了,只有个别错字;排版一般,分段少了很多。
case3 视频理解
提示词:帮我详细分析这个视频中的每个分镜,确保我可以复刻。
Gemini 3识别出这是一个分厂典型的高能量快节奏旅行 Vlog,还找出了类似风格的知名博主,并且表示这个视频的核心在于卡点剪辑、无缝转场和高质量的 B-Roll(空镜)。内容和要点说得都挺对。
这段4分钟的视频,Gemini 3按照叙事逻辑和音乐情绪拆分成7个阶段,并详细分析了每个分镜的画面,不仅包含了画面是什么内容,还详细描述了拍摄和后期的技巧。

最后Gemini 3给了关键的3条建议:

需要用到什么拍摄设备、人物出镜是什么状态、转场怎么规划、最后怎么剪辑成片,这些真实拍摄流程中要注意的关键点,Gemini 3全都讲到了。
case4 SVG动画
提示词:生成一个展示二极管整流电路工作原理的 SVG 动画.
一句简单的提示词,Gemini 3 就画出了动画版的电路图,方便理解知识点,还在旁边加上了一个波形图,页面布局挺不错,动画效果做的也很棒。
不过波形图还需要优化一下,形状对了但数值不太准确,把输入和输出拆分成两个独立的坐标系会更合适。
case5 数学练习训练器
提示词:制作一个网页,网页中显示用emoji 创建的动画,用来展示AI Agent的原理。
Gemini 3做了一个案例演示的动画,当用户发送查询天气的需求,AI Agent 并不知道实时对的天气情况,这时候 AI Agent 会调用搜索工具,查询后,将数据回复给用户。
整个过程简单明了,没有任何基础的人都能看懂,动画也很丝滑,很不错。
case6 3D Excel模拟器
提示词:将一台电脑放置在一个可以移动视角的 3D 空间中, 并在该电脑中创建一个可操作的 Excel 模拟器。 功能:提供10种类型。同时允许更改视角高度。
Gemini 3 生成的页面是这样的,我们可以随意切换视角,拉近、拉远、上下移动,旋转,电脑屏幕中的Excel也是可以编辑的状态。可见 Gemini 3的多模态理解能力和 UI 生成上的能力是相当到位的。
case7 数学练习训练器
提示词:创建一个仅用单个 HTML 文件实现的单页应用,具体要求如下:
名称:数学练习训练
目标:提升做数学题的速度和准确度。
功能:限时测验、难度设置、分数追踪。
界面:整体风格应保持极简,大字号、易阅读的文字。
本来我以为它的界面这么简单,肯定很拉跨。
但是实际用下来确实还不错,可以调整时间、数字大小和运算类型,给小学生练习加减乘除的运算非常合适。
还有得分系统,也相当于玩游戏了。
case8 网站开发
尝试做了一个会员优惠网站,我是通过自然语言对话完成的,以下是分步提示词:
提示词1:帮我生成一个会员优惠网站,支持领取会员码、购买会员卡密,分为最新和最热两个Tab。
提示词2:帮我增加一个用户中心和鉴权,支持谷歌账号一键登录,未登录态不可领取和购买,点击后引导注册登录账号,登录态用户可以看到他历史买了哪些、免费领取了哪些。
帮我在商品上增加领取数据、购买数据,多少人已领取、多少人已购买。热门Tab按照领取数、购买数降序排序,最新Tab按照上线时间排序,左侧增加日期目录,按日维度倒序。
提示词3:左侧日期不够美观,做成滚动的,去掉具体日期显示,改成按月维度显示,UI风格还是参考上一版不需要大改。
最新与最热Tab下,分成两列展示,第一列全部为免费领取的会员,一排两个商品,第二列为可优惠购买的会员,一排一个商品,增加折扣力度显示,划线掉原价格,自动换算显示折扣力度,保留1位小数,例如:6.6折。
提示词4:我们的产品名称叫 VipCheap ,帮我取字母”V”为主元素,生成一个LOGO放上去,LOGO是主色调偏深一点的底色,V元素为白色。
最新和最热下面的 分类标签,帮我保留,跟之前的样式类似即可。
免费领取会员卡片,提示剩余库存数量还有多少,如果剩余为0则不可领取,按钮置灰。
提示词5:整体很好,LOGO帮我改成圆角矩形,其他不变。
热门榜单,补充一下领取数,按照领取数降序排序,其他不变。
提示词6:免费领取后,按钮文案改成“查看会员”,颜色换一个,可以点击弹窗预览领取的卡密和如何领取兑换的信息,其他保持不变。
提示词7:付费折扣专区,购买商品需要弹窗确认 数量、总金额、支付方式(支持PavPal、微信、支付宝、信用卡)购买后引导查看卡密信息和兑换方式,在个人中心同样可以查看这些记录和信息。
付费折扣专区默认展示10个,其他严格保持不变。
这是最终的网站:
我们可以注册登录、查看和购买产品,页面审美还是挺不错的,交互也很流畅。
在多轮自然语言对话迭代中,Gemini 3始终都能维持住整体的UI风格、页面布局和组件逻辑,不会越改越乱,这点对我这种看不懂代码的人来说太关键了。
我又顺手让它生成了一个管理后台:
提示词:根据以上最新版产品功能,完整梳理后台管理系统涉及哪些功能、增删改查需求,梳理好完整需求之后生成一个管理后台,需要支持两个系统角色:超级管理员、运营,运营角色权限配置不支持删除任何数据(商品、订单、用户)。
Gemini 3根据前端页面、已有的功能逻辑,把仪表盘、商品管理、订单流水、用户和系统权限这些模块都补全了。整个后台是基于前端网页倒推出来的,这点非常像一个合格的产品经理。





