project
Dulus - 开源的 CLI AI Agent,可驱动多模型工具调用
Dulus 是约 12K 行 Python 的开源 CLI AI Agent,支持 Claude、GPT、Gemini、DeepSeek、Kimi、Qwen 等 40+ 模型。工具可直接捕获浏览器网页版 AI 的访客会话...
Dulus是什么
Dulus 是约 12K 行 Python 的开源 CLI AI Agent,支持 Claude、GPT、Gemini、DeepSeek、Kimi、Qwen 等 40+ 模型。工具可直接捕获浏览器网页版 AI 的访客会话,转化为具备文件读写、代码编辑、Bash 执行、Web 搜索等 27 种工具的工具调用代理。Dulus支持 MCP、插件热加载、子代理、离线语音、持久记忆与自动快照,提供 PyQt6 GUI、WebChat 和 Telegram 多端入口。
Dulus的主要功能
-
零密钥网页会话捕获:自动劫持 Gemini、Claude.ai、Kimi.com、DeepSeek 等浏览器标签页,将网页对话转为可工具调用的本地 Agent。
-
27 种内置工具:涵盖 Read、Write、Edit、Bash、Glob、Grep、WebFetch、WebSearch、NotebookEdit、GetDiagnostics、Memory、Tasks、Agents、Skills 等。
-
多提供商模型切换:支持 Anthropic、OpenAI、Google、DeepSeek、Kimi、Qwen、Zhipu、MiniMax、Ollama、LM Studio 及自定义端点,会话中
/model实时切换。 -
MCP 与插件生态:放置
.mcp.json即可注册任意 MCP 服务器;Auto-Adapter 可零配置热加载任意 Python 仓库为插件。 -
子代理与任务管理:在独立 git worktree 中生成 coder、reviewer、researcher 等类型子代理,通过消息传递协作,并内置任务看板。
-
离线语音与唤醒:基于 Whisper-cpp 实现离线语音输入,Kokoro TTS 实现语音输出;支持自定义离线唤醒词如 “hey dulus”。
-
持久记忆与快照:双范围记忆(用户级+项目级)按置信度与最近度排序;每轮自动创建 Checkpoints,支持对话与文件状态一键回滚。
-
多模态交互界面:提供 REPL 终端、Flask WebChat(局域网可访问)、PyQt6 原生桌面 GUI 及 Telegram Bot 四种交互方式。
-
开发者增强模式:SSJ Mode 提供原始 Token 计数、流延迟计时、工具调用检查器、Prompt 注入查看器等调试能力。
如何使用Dulus
- 安装:执行
pip install dulus或curl -fsSL https://raw.githubusercontent.com/KevRojo/Dulus/main/install.sh | bash一键安装。 - 配置密钥:设置任意提供商环境变量如
export ANTHROPIC_API_KEY=sk-ant-...,或直接跳过使用 Ollama 本地模型与浏览器劫持模式。 - 启动交互:终端输入
dulus进入 REPL,用/model nvidia-web/deepseek-r1或/model ollama/qwen2.5-coder选择模型。 - 开启零密钥模式: 首次运行时按向导提示打开 Gemini 浏览器访客页面,Dulus 自动捕获会话,无需 API Key 可开始工具调用。
- 执行任务:直接输入自然语言指令如 “refactor the auth module”,Agent 自动读取文件、编辑代码、运行测试并提交结果。
- 扩展能力:通过
/plugin install 仓库名@URL热加载任意 Python 工具库,或/mcp注册外部 MCP 服务器扩展功能。
Dulus的核心优势
-
真正的零成本启动:无需 API Key、信用卡或登录,30 秒内通过浏览器访客模式获得完整工具调用 Agent,降低使用门槛至极致。
-
模型中立与实时切换:不绑定单一提供商,同一会话中
/model可在 Claude、DeepSeek、Kimi 等模型间无缝切换,并支持自动降级链。 -
热插拔生态扩展:Auto-Adapter 让任意 Python 仓库秒变插件,MCP 与 Composio 提供 800+ 技能,生态扩展无需等待官方适配。
-
全链路离线能力:支持语音输入输出、唤醒词、OCR、Ollama 本地模型均可在完全断网环境下运行,适配保密网络与离线场景。
-
多界面统一核心:终端、Web、桌面 GUI、Telegram 共享同一 Agent 核心与记忆状态,用户可按场景自由切换交互面。
Dulus的项目地址
- 项目官网:https://dulus.ai/
- GitHub仓库:https://github.com/KevRojo/Dulus
Dulus的同类竞品对比
| 对比维度 | Dulus | Claude Code | Aider |
|---|---|---|---|
| 提供商锁定 | 多提供商中立,实时切换 | 仅 Anthropic Claude | 多模型,但配置较繁琐 |
| API Key 要求 | 可选零密钥(浏览器劫持) | 必须 API Key | 必须 API Key |
| 本地/离线运行 | 完整支持(Ollama+离线语音) | 不支持 | 支持本地模型,无离线语音 |
| 插件生态 | Auto-Adapter 任意 Python 仓库 + MCP | 无插件系统 | 支持自定义工具,生态较小 |
| 子代理/多 Agent | 内置多类型子代理与消息传递 | 无原生子代理 | 支持多文件编辑,无独立子代理 |
| 语音交互 | 离线 Whisper + Kokoro TTS + 唤醒词 | 不支持 | 不支持 |
| Web/Telegram/GUI | 四种界面俱全 | 仅终端 | 仅终端 |
| 记忆与快照 | 持久记忆 + 自动 Checkpoint 回滚 | 会话级记忆 | 无原生快照机制 |
| 开源与体积 | ~12K 行 Python,pip 直接安装 | 闭源 | 开源,功能聚焦编码 |
Dulus的应用场景
-
个人开发者编码助手:替代传统 IDE 插件,直接通过自然语言驱动代码读写、重构、测试与提交,支持多模型协作审查。
-
零预算 AI 实验:学生或初学者用 Gemini 访客模式免费体验前沿模型的高级工具调用能力,无需订阅付费 API。
-
离线/保密环境自动化:政府、军工或企业内网中,基于 Ollama 本地模型与离线语音实现完全私有化的 Agent 工作流。
-
Telegram 远程运维:通过手机 Telegram 向家中或服务器上的 Dulus 发送指令,执行文件管理、日志排查等远程操作。
-
多 Agent 协作研发:将代码编写、审查、测试分配给不同子代理并行推进,适合大型模块的分布式开发。