微软最近发布了 Fara-7B,这是一款拥有70亿参数的新型计算机使用智能助手(Computer Use Agent, CUA),旨在直接在用户的设备上执行复杂任务。Fara-7B 凭借其小巧的体积,成功突破了企业在数据安全性方面的主要障碍,允许用户自动化处理敏感工作流,比如管理内部账户或处理公司机密数据,而这些信息无需离开设备。
Fara-7B 的工作方式是通过视觉方式识别网页,就像人类使用鼠标和键盘一样。该模型通过截屏来感知网页,并预测特定坐标以执行点击、输入和滚动等操作。与其他依赖于 “可访问性树” 的系统不同,Fara-7B 完全依赖像素级的视觉数据,这使得它在面对复杂或混淆的网页代码时依然能够进行有效互动。
在性能测试中,Fara-7B 在 WebVoyager 这一标准基准上实现了73.5% 的任务成功率,超越了资源占用更大的系统,如 GPT-4o(65.1%)和本土的 UI-TARS-1.5-7B(66.4%)。此外,Fara-7B 的效率也很突出,平均仅需约16个步骤就能完成任务,而 UI-TARS-1.5-7B 大约需要41个步骤。
尽管 Fara-7B 的推出令人期待,但它也面临与其他 AI 模型相同的风险,比如可能出现的误判和在复杂指令下的执行错误。为了解决这些问题,Fara-7B 经过训练,可以识别 “关键点”,即在需要用户个人数据或同意的情况下,主动暂停并请求用户批准,以避免不可逆的操作。微软研究团队设计了一种名为 Magentic-UI 的用户界面,旨在平衡这些关键点和用户体验,以减少用户疲劳。
Fara-7B 的开发也展示了知识蒸馏的趋势,将复杂系统的能力压缩成更高效的小模型。未来的版本将致力于使模型更加智能,而非单纯增大体积,并探讨在实时沙盒环境中通过强化学习来进行学习。
微软已在 Hugging Face 和 Microsoft Foundry 上提供了 Fara-7B 的 MIT 许可版本,供用户进行实验和原型开发,但目前并不适合直接用于关键任务的部署。
划重点:





京公网安备 11011402013531号