谷歌 Gemini 3 Flash 新增“Agentic Vision”功能:将视觉推理与代码执行相结合
发布时间:2026-01-28 00:00
发布者:花韻仙語
浏览次数:谷歌正式推出 gemini 3 flash 的全新视觉智能模块 agentic vision,目标是让 ai 在图像理解上更贴近人类专家的分析逻辑,而非简单地“扫一眼就作答”。
传统 AI 视觉模型普遍采用“单次快照式”理解:输入一张图,模型即刻输出判断。然而面对高密度信息或极细微特征(如远距离标识、微缩文字等)时,这种静态方式常导致识别偏差或遗漏关键细节。
Agentic Vision 的突破在于构建了一套类人推理驱动的视觉工作流——模型不再被动接收图像,而是像专业技术人员那样,以“规划→干预→复验”的闭环方式进行深度视觉解析。
-
Think(规划):模型结合用户指令与原始图像,自主生成一套分阶段的视觉分析策略。

- Act(干预):通过动态编写并运行 Python 脚本,执行图像裁剪、角度校正、区域标注、对象计数等精准操作。
- Observe(复验):将处理后的图像作为新输入纳入上下文,模型基于增强后的视觉证据进行二次推理与最终作答。
这种“观察→操作→再观察”的迭代式视觉推理机制,使 Gemini 在多项复杂图像任务中的准确率平均提升 5–10%。
目前,Agentic Vision 已集成至 Gemini AI Studio 与 Vertex AI 平台,并可通过 Gemini API 调用。后续还将逐步上线 Gemini App 的“Thinking 模式”,面向终端用户开放。开发者仅需在相关工具中开启“Code Execution”(代码执行)选项,即可激活该能力。
# 闭环
# 专业技术人员
# 仅需
# 而非
# 多项
# 并可
# 还将
# 工作流
# 复验
# python
# 作答
# 对象
# gemini
# ai
# 工具
# 谷歌
# app
相关文章:
光遇办公室空间站全面进入攻略
昆仑天工发布音乐大模型 Mureka V8
最好用的AI专案管理工具居然是Google的「NotebookLM」?这篇告诉你原因
睽违两年专业跑錶回归?HUAWEI 确定 2 月 26 日发表 Runner 系列新作!
记忆体成本攀升引定价分歧!传苹果iPhone 18将吸收成本 三星 S26 恐大涨
Xiaomi Pad 8 Pro 海外版现身 GeekBench 数据库!或与 Xiaomi 17 系列同步推出、有望 3 月 MWC 2026 见?
曝OPPO新旗舰采用大R角四等边极窄屏 对标iPhone!
《上古卷轴6》如何处理前作结局?设计师大胆猜测
Redmi Turbo 5 规格全面曝光:天玑 8500-Ultra 配搭 7560mAh 超大电池!
哈曼拓展软件定义汽车工具链规模化加速软件验证流程与全生命周期更新
首部AIGC动画电影《团圆令》上映,华硕ProArt重塑创作生态
毕安卡全技能解析:破绽核心的 T0 射手风暴
天玑9600 9月亮相:联发科首款2nm芯片 对标苹果A20
iPhone Air 2加副摄就能热卖?外媒指出定价是关键
火系战队燃爆全图!三大核心配队妙招一次看懂
高通骁龙8 Elite Gen6 Pro特调版曝光,专供三星,采用2nm工艺
放心买iPhone 17?苹果iPhone 18系列外观或不会大改
曝荣耀X等系列新机都将采用万级电池 旗舰或将跟进
逛市集、赏非遗、买年货 来传统大集感受年味 在文化与烟火气中喜迎佳节
美团旅行:北上成渝广深为“反向过年”TOP目的地
苹果向开发者推送iOS 26.3等测试版 预计1月底发布
已退款!TCLD手机众筹失败
为了堆料?曝小米18尺寸变大 全系标配2亿像素传感器
国产AI算力里程碑:3套万卡超集群同日落地
酷睿Ultra X9 388H加持!联想小新Pro 16 GT AI元启版图赏
新版梵想S790评测:升级英韧IG5222主控,功耗降低性能提升
苹果iPhone Fold折叠屏更多细节遭曝光 电池刷新记录?
火影忍者手游大蛇丸出招终极指南 连招核心与实战技巧全解析
苹果财报曝警讯!第二季定价成焦点 高层回应评估多元策略以维持获利目标
不是折叠iPhone!库克:今年晚些将带来前所未见的创新
相关栏目:
【
科技资讯38001 】
【
网络动态13059 】
【
技术学堂11871 】
【
网络推广75774 】
【
品牌营销52040 】
【
AI推广53525 】
【
推荐站点126806 】







