project
Fara1.5 - 微软推出的浏览器端 AI 智能体模型系列
Fara1.5是微软研究院 AI Frontiers 实验室最新推出的浏览器端AI智能体(CUA)模型系列,包含 4B、9B、27B 三个参数版本。模型基于 Qwen3.5 微调,采用纯像素...
Fara1.5是什么
Fara1.5是微软研究院 AI Frontiers 实验室最新推出的浏览器端AI智能体(CUA)模型系列,包含 4B、9B、27B 三个参数版本。模型基于 Qwen3.5 微调,采用纯像素级截图输入,通过观察—思考—行动循环输出鼠标与键盘操作,在 Online-Mind2Web 基准上 27B 版本任务成功率达 72%,超越 OpenAI Operator 与 Gemini 2.5 Computer Use。模型配套 MagenticLite 沙盒浏览器使用,支持表单填写、跨站比价、事件预订等复杂网页任务,在关键操作前主动请求用户确认。
Fara1.5的主要功能
-
像素级浏览器控制:直接读取浏览器截图,不依赖 DOM 或无障碍树,输出 click、type、scroll、drag 等像素级鼠标键盘操作。
-
网页专用快捷动作:支持 web_search、visit_url、go_back 等高层网页操作,提升任务执行效率。
-
上下文管理元动作:内置 memorize、ask_user、finish 等动作,支持长程任务记忆与协作式人机交互。
-
安全沙盒执行:通过 MagenticLite 沙盒浏览器运行,形成与用户设备的安全边界,所有操作可追溯。
-
多规模部署:提供 4B、9B、27B 三个版本,兼顾边缘设备轻量化部署与高性能场景需求。
Fara1.5的技术原理
-
基础架构:以 Qwen3.5 为基座检查点,经约 200 万条有效样本监督微调(SFT)。
-
观察—思考—行动循环:每步输入包含完整对话历史与最近 3 张浏览器截图,模型先输出推理过程(thought),再预测下一步原子动作(action)。
-
滑动窗口损失掩码:仅对最近 3 个轮次的 thought 与 action token 计算交叉熵损失,历史截图与早期步骤仅作为输入上下文。
-
FaraGen1.5 合成数据引擎:通过教师智能体(GPT-5.4 + Fara1.5 工具能力约束)与用户模拟器多轮交互生成轨迹,再经正确性、效率、用户交互三重验证器过滤,补充登录态、不可逆操作等真实网页无法采集的数据。
-
训练数据配比:网页轨迹 60%、合成环境 12.8%、表单填写与用户交互 12.5%、事实锚定 8.8%、视觉问答 4.9%。
如何使用Fara1.5
- 环境准备:安装 MagenticLite 沙盒浏览器,该界面专为 Fara1.5 系列智能体设计,提供隔离的执行环境。
- 加载模型:根据硬件与性能需求选择 Fara1.5-4B、9B 或 27B 模型,完成模型加载与浏览器实例初始化。
- 下达任务:通过自然语言描述网页任务,如”在 NYC 预订 11 月 24-28 日的酒店房间”。
- 循环执行:模型自动进入 Observe-Think-Act 循环,读取截图、推理并执行单步动作,直至任务完成或在关键节点主动询问用户。
- 确认与干预:当遇到信息缺失、任务描述含糊或不可逆操作时,模型会暂停并请求用户确认,保障操作安全。
Fara1.5的核心优势
-
同尺寸性能领先:Fara1.5-9B 在 Online-Mind2Web 上取得 63.4% 成功率,相较同规模的 GUI-Owl-1.5-8B(48.6%)提升近 15 个百分点,创下该参数级别 SOTA;Fara1.5-4B 以 57.3% 的成绩已接近前代 Fara-7B(34.1%)的两倍,证明小模型也能承载复杂浏览器任务。
-
纯视觉驱动,零外部依赖:不解析 DOM 树、不依赖无障碍接口,仅通过像素截图理解页面,适配性更强,不受网页结构变化或前端框架限制。
-
突破公开网页边界:通过 FaraGen1.5 合成数据引擎模拟邮箱、日历、媒体平台等需登录或涉及不可逆操作的场景,让模型能力从”只读浏览”扩展到”可写交互”。
-
可部署于 modest hardware:4B 与 9B 版本可在普通消费级硬件上运行,降低企业和开发者接入门槛,27B 版本则用于追求极致性能的场景。
Fara1.5的项目地址
- 项目地址:https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
- GitHub仓库:https://github.com/microsoft/fara
Fara1.5的同类竞品对比
| 对比维度 | Fara1.5-27B | Fara1.5-4B | OpenAI Operator |
|---|---|---|---|
| 开发方 | 微软研究院 | 微软研究院 | OpenAI |
| 参数规模 | 27B | 4B | 未公开(专有) |
| Online-Mind2Web | 72.0% | 57.3% | 58.3% |
| WebVoyager | 88.6% | 80.8% | — |
| 开源/部署 | 开源权重,可本地部署 | 开源权重,边缘设备友好 | 云端专有 API |
| 安全边界 | MagenticLite 沙盒 + 主动询问 | 同上 | 专有沙盒环境 |
| 核心差异 | 纯 VLM 无 DOM 依赖,规模效应显著 | 小模型高性价比 | 生态整合与品牌认知强 |
Fara1.5的应用场景
-
自动化表单填写:在招聘、报销、预约等长表单页面中自动识别字段并填入信息,遇到缺失项时主动询问用户。
-
跨站比价与调研:在多个电商或信息站点间自动跳转、抓取商品参数与价格,汇总对比结果。
-
日程与预订操作:完成酒店、机票、会议室等需要多步点击、日期选择和支付确认的预订流程。
-
邮件与内容管理:在合成环境支持下,可执行邮件发送、草稿保存、附件上传等涉及账户权限的操作。
-
无障碍辅助:为视障或操作受限用户提供自然语言驱动的网页导航与交互代理。