谷歌承诺已久的 AI 愿景正随着的发布正式照进现实。今日,联合宣布,基于 Gemini 的“任务自动化”功能已进入 Beta 测试阶段。这一功能标志着 AI 助手从单纯的“信息查询员”转型为具备跨应用执行能力的“数字代办”,能够模拟人类操作完成订餐、打车等复杂流程。
视觉震撼:看着手机“自己用自己”与传统的 API 对接不同,的自动化功能是在一个虚拟窗口中模拟真实的用户操作:
智能打车:当你给出“打车去机场”的指令,会自动唤起 Uber,确认具体的航站楼(如遇多航站楼会主动询问),并自动填入目的地。
代订餐食:在处理“帮我点一杯咖啡和牛角包”的指令时,AI 会自主划动屏幕寻找星巴克菜单中的特定单品(如 Flat White),甚至能像人类一样处理复杂的滚动选择。
安全逻辑:关键节点,人类掌舵为了规避自主权带来的风险,谷歌在自动化流程中设置了严密的人工复核机制:
显式操作:用户可以实时观看的每一步动作,并随时通过“Take control”接管或终止自动化进程。
最后确认制:在最终提交订单或付款前,系统会强制停在支付界面,等待用户核实明细并手动点击“确认”,确保每一笔交易都在受控状态下完成
目前,该功能已优先适配外卖配送与网约车类应用。对于及后续用户而言,手机不再仅仅是运行 App 的载体,而是一个能够理解自然语言意图并将其转化为具体操作的“超级代理”。
尽管 AI 在菜单滚动和选项识别上偶尔还显得有些“笨拙”,但这种无需 API 深度适配、直接基于 UI 交互的自动化模式,极大地拓宽了 AI 助手的应用边界。随着算法的迭代,我们正在告别“在 App 丛林中反复横跳”的时代,进入“一句话完成所有琐事”的真智能阶段。





京公网安备 11011402013531号