project
Baichuan-M4 - 百川智能联合清华推出的医疗增强模型
Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% ...
Baichuan-M4是什么
Baichuan-M4是百川智能联合清华大学推出的新一代医疗增强大模型,在 HealthBench 综合、Hard、Professional 三个权威榜单同时位列世界第一,幻觉率低至 3.3% 为全行业最低。Baichuan-M4 突破通用大模型被动应答的局限,聚焦深度问诊、全病程记忆、证据锚定与 Agent 自主调度四大临床核心能力,让 AI 从会答题真正迈向会看病。
Baichuan-M4的主要功能
-
深度主动问诊:模拟临床医生多轮追问,引导患者补充症状细节,优先识别危急重症,而非被动等待完整信息。
-
全病程记忆:打通历史病历、多轮问诊、化验趋势与用药反馈,在多次对话中持续掌握患者完整病史。
-
证据锚定:生成的每一句医学结论均精确对应权威论文或指南的具体段落,确保可追溯、可验证。
-
智能体调度:通过 Baichuan-Harness 自主决策何时追问、检索或复盘病史,并行处理复杂子任务。
-
安全约束:实时拦截违规工具调用、越权数据访问及不合临床规范的操作。
Baichuan-M4的技术原理
- 基于 OSCE 的动态问诊:借鉴医学教育中的客观结构化临床考试方法,联合 150 余位一线医生构建 SCAN-bench 评测体系。模型通过多轮动态交互模拟真实接诊流程,主动追问症状性质与诱因,逐步缩小诊断范围,避免为快速出结论跳过关键病史。
- 长上下文全病程记忆:突破单轮对话记忆限制,采用长上下文临床记忆机制,持续整合结构化病历、既往问诊摘要、检查结果与用药反馈。模型在跨时间线的多次交互中始终掌握患者身份、既往疾病及指标变化,为实现精准医疗提供个性化数据基础。
- 六源循证与证据锚定:依托”六源循证”范式,仅检索权威医学来源,不从开放网络抓取。将指南、专家共识与真实诊疗流程拆解为超过 1000 个标准化临床路径单元,覆盖 200 余种疾病。模型输出需精确锚定到原始文献的具体段落,非仅标注文献编号,确保引用精度达 90.0。
- Baichuan-Harness Agent 架构:作为医疗智能体的中枢神经,自主编排问诊、记忆、循证三大模块的调用时机。面对繁重任务时拆分为子任务并行处理,降低主 Agent 上下文负载;同时内置实时安全护栏,拦截未授权工具调用与数据访问,支持线上疑难案例回流迭代。
如何使用Baichuan-M4
- 症状初述:用户通过百川智能产品入口描述当前身体不适或上传化验单。
- 主动多轮追问:M4 自动发起针对性追问,引导用户补充症状部位、持续时间、诱因、既往病史等关键信息。
- 生成问诊卡:完成信息收集后,模型将病史与症状整理为结构化问诊卡,并给出初步就诊建议。
- 持续随访管理:用户后续可随时补充新症状或检查结果,M4 基于全病程记忆持续跟踪病情演变。
Baichuan-M4的核心优势
-
评测全面领先:HealthBench 三榜世界第一,综合得分 68.6,领先第二名 GPT-5.5 超 10 分。
-
幻觉率行业最低:事实性幻觉率仅 3.3%,显著低于 GPT-5.5(3.8%)与 DeepSeek-V4-Pro(9.8%)。
-
问诊能力断层领先:SCAN-bench 初诊 79.0、复诊 74.7,均明显优于主流通用大模型。
-
循证精度极高:Baichuan-EBM 评测引用精度达 90.0,远超 GPT-5.5(54.7)。
-
记忆跨度长:长上下文临床记忆 86.9 分,较上一代 M3 提升 21.1 分。
-
临床可落地:超过 1000 个临床路径单元覆盖 200 余种疾病,均由资深专家校验。
Baichuan-M4的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2606.08982
Baichuan-M4的同类竞品对比
| 对比维度 | Baichuan-M4 | GPT-5.5 |
|---|---|---|
| HealthBench 综合 | 68.6(世界第一) | 58.4 |
| HealthBench Hard | 49.7 | 33.8 |
| HealthBench Prof | 55.1 | 51.8 |
| 幻觉率 | 3.3%(行业最低) | 3.8% |
| SCAN-bench 初诊 | 79.0 | 68.8 |
| SCAN-bench 复诊 | 74.7 | 67.7 |
| 长上下文临床记忆 | 86.9 | 81.7 |
| 循证引用精度 | 90.0 | 54.7 |
| 问诊模式 | 原生深度主动追问,模拟临床医生多轮问询 | 依赖角色扮演提示驱动,易急于下结论 |
| 记忆机制 | 全病程记忆,跨时间线整合病历与随访 | 有限上下文记忆,长病程易遗忘早期信息 |
| 证据溯源 | 精确锚定到论文/指南具体段落 | 文献级引用,段落级精度不足 |
| 架构设计 | Baichuan-Harness Agent 自主编排调度 | 需外部人工流程编排多模块协作 |
| 临床路径覆盖 | 1000+ 标准化路径单元,200+ 疾病 | 无原生临床路径体系 |
Baichuan-M4的应用场景
-
日常健康咨询:用户出现身体不适时,通过多轮追问获得初步评估与就诊建议,避免盲目就医。
-
慢病长期管理:持续记录高血压、糖尿病等慢性病患者的用药反馈与指标变化,提供个性化随访提醒。
-
诊前预问诊:患者在医院挂号前完成症状梳理,生成结构化问诊卡,提升面诊效率。
-
跨地域家属关怀:子女远程关注父母健康,模型结合长期记录识别早期心功能不全等隐匿风险。
-
医学教育与培训:基于 OSCE 方法的动态交互,为医学生提供标准化、可复用的临床思维训练。