MAI-Transcribe-1 - 微软推出的语音转文字模型
MAI-Transcribe-1是微软Azure AI Foundry推出的企业级语音转文字模型,支持中英日法等25种语言,模型在FLEURS基准测试中全面领先Whisper-large-v3。
MAI-Transcribe-1是微软Azure AI Foundry推出的企业级语音转文字模型,支持中英日法等25种语言,模型在FLEURS基准测试中全面领先Whisper-large-v3。
Wan2.7-Video是阿里通义实验室推出的AI视频创作大模型,支持文本、图像、视频、音频全模态输入。模型突破传统生成限制,实现'像修图一样修视频'的局部编辑、...
Gemma 4是Google开源的多模态大模型系列,基于Gemini 3架构。模型包含E2B/E4B(手机/树莓派可跑)、26B MoE(仅激活3.8B参数)和31B Dense(Arena评分开源第...
InternSVG是上海人工智能实验室等推出的面向统一SVG建模的“数据-评测-模型”综合套件,包含三大组件:超1600万样本的SAgoge数据集、标准化SArena评测基准,以...
JoyAI-Image-Edit是京东开源的指令引导图像编辑模型,基于JoyAI-Image多模态基础模型构建。模型支持通过自然语言指令实现精确可控的空间操作与智能图像修改,...
GLM-5V-Turbo是智谱AI推出的原生多模态Coding基座模型,专为视觉编程和AI Agent设计。模型从预训练阶段深度融合视觉与文本能力,支持理解图片、视频、设计稿...
Qwen3.6-Plus是阿里通义实验室推出的 Agent 编程模型,主打编码智能体能力跃升。模型默认支持100万token超长上下文,在SWE-bench、Terminal-Bench等代码修复...
claw-code 是Claude Code 源码泄露后推出的Clean-room Rewrite项目。作者为避免法律风险,使用 OpenAI Codex 的 OmX 工作流编排,仅用数小时将核心架构从 Typ...
Wan2.7-Image是通义实验室推出的AI图像生成与编辑模型,支持深度自定义人物形象(脸型、眼型、骨相等),告别千篇一律的「AI标准脸」,可精准生成4000+字符及...
Lightpanda 是专为 AI Agent 和自动化设计的开源无头浏览器,用 Zig 语言从零编写,不依赖 Chromium 或 WebKit。工具内存占用仅为 Chrome 的 1/16,执行速度...
Veo 3.1 Lite 是 Google 最新推出的AI视频生成模型,成本比 Veo 3.1 Fast 降低 50% 以上,同时保持同等生成速度。模型支持文本/图像生成视频,可灵活切换横竖...
TeamClaw 是AI 员工团队管理平台,定位'一个人的 AI 办公室'。平台能让用户像招聘真实员工一样定义 AI 岗位(CEO、分析师等),角色秒级到岗;支持为 AI 安装...
ColaMD 是开源的 Markdown 编辑器。工具解决了传统编辑器在 AI 修改文件后需手动刷新才能看到更新的痛点,实现 Agent 后台修改与前台内容的实时同步,如同观...
harrier-oss-v1 是微软开源的多语言文本嵌入模型,在 Multilingual MTEB v2 基准测试中取得 SOTA 成绩。模型采用仅解码器架构,通过最后 token 池化和 L2 归...
LongCat-AudioDiT 是美团开源的高保真扩散式文本转语音(TTS)模型,核心创新在于直接在波形潜空间进行扩散生成,非传统梅尔频谱等中间表示,有效避免误差累...
Vision2Web是清华大学和智谱AI联合推出的视觉网站开发评估基准,用于评估多模态AI Agent的端到端建站能力。Vision2Web包含193个真实网站任务,分为三层递进难...
wecom-cli(企业微信 CLI) 是企业微信官方团队开源的命令行工具,让人类和 AI Agent 能在终端中操作企业微信。工具覆盖通讯录、待办、会议、消息、日程、文...
PixVerse V6 是爱诗科技推出的最新 AI 视频生成模型。模型在镜头控制、角色表现和多镜头音视频生成方面实现突破,运镜更精准,角色情绪跨帧连贯,物理交互更...
Pretext 是前 React 核心成员 Cheng Lou 开源的,纯 JavaScript/TypeScript 的多行文本测量与布局库,用于纯算术方式精确测量多行文本尺寸,完全绕过 DOM 重排。
Pascal Editor 是基于 Web 的开源 3D 建筑编辑器,由 Claude 辅助开发。工具无需安装,浏览器可运行,采用 WebGPU 技术实现高性能渲染。
Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型,可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术,在215项音...
Mureka V9 是昆仑万维推出的最新AI音乐大模型。模型在音乐旋律性、表现力、编配编曲等核心指标上全面超越Suno V5等竞品,登顶Artificial Analysis人声和乐器...
GigaWorld-1 是极佳视界推出的具身世界模型,在 WorldArena 评测中登顶全球第一。模型采用 AC-WM(动作控制世界模型)架构,结合显式动作建模与可微分物理引...
MicroCoder是微软亚洲研究院联合剑桥大学、普林斯顿大学推出的代码大模型训练优化项目,针对Qwen3等新一代模型训练瓶颈,从算法、数据、评估、经验四维度全面...