project
TuriX-CUA - 开源AI桌面Agent,自动进行屏幕识别和操作
TuriX-CUA 是基于 Python 开源的 AI 智能体,能通过 AI 技术实现桌面自动化操作。TuriX-CUA 通过截屏“看”屏幕,用多模态大模型“思考”下一步操作,完成用户指...
TuriX-CUA是什么
TuriX-CUA 是基于 Python 开源的 AI 智能体,能通过 AI 技术实现桌面自动化操作。TuriX-CUA 通过截屏“看”屏幕,用多模态大模型“思考”下一步操作,完成用户指定的任务,如搜索信息、处理文档等。TuriX-CUA支持 Windows 和 MacOS 系统,兼容多种 AI 模型,可通过 MCP 协议与其他 AI 工具集成,实现复杂任务的自动化,为用户提供高效、智能的桌面操作体验。
TuriX-CUA的主要功能
-
屏幕识别与操作:通过截屏识别屏幕内容,控制鼠标点击和键盘输入,实现自动化任务。
-
多模态任务执行:支持多种复杂任务,如预订机票、搜索信息、生成图表和插入文档等。
-
多模型架构:采用 Planner 和 Executor 分工合作,提高任务执行的成功率和稳定性。
-
跨平台支持:兼容 Windows 和 MacOS 系统,适应不同用户的操作系统需求。
-
MCP 协议集成:支持与 Claude 等其他 AI 工具通过 MCP 协议协作,扩展功能和应用场景。
-
灵活的模型配置:用户可更换底层 AI 模型,如 OpenAI 或本地部署的 Qwen3-VL,满足个性化需求。
-
任务规划与分解:通过 Planner 将复杂任务拆解为多个步骤,逐一执行,提升任务完成度。
如何使用TuriX-CUA
-
环境准备:安装 Python 和 Conda,创建 Python 环境并安装项目所需的依赖包。
-
模型配置:在配置文件中设置 AI 模型的接口信息,定义需要执行的任务描述。
-
权限设置:为系统授予截屏、控制鼠标键盘的权限,确保软件能够正常操作桌面元素。
-
启动 Agent:运行项目启动脚本,让 AI 开始执行配置好的任务。
-
配置任务:根据实际需求修改任务描述,确保任务表述清晰明确,提高执行的成功率。
TuriX-CUA的项目地址
- GitHub仓库:https://github.com/TurixAI/TuriX-CUA
TuriX-CUA的应用场景
-
文档处理:自动创建、编辑和发送文档(如 Word、Excel、PowerPoint),根据用户指令生成报告、插入图表发送给同事。
-
邮件管理:自动撰写、发送和回复邮件,根据预设规则处理日常邮件任务。
-
数据收集:自动从网页或应用程序中提取数据,例如搜索、记录产品价格、股票信息等。
-
内容搜索与浏览:自动在浏览器中搜索内容、浏览网页并执行操作,如点赞、评论或分享。
-
界面测试:自动测试软件的用户界面,验证功能是否正常运行。