文心大模型X1.1是百度推出的深度思考模型,基于迭代式混合强化学习框架,在事实性、指令遵循能力和智能体能力上显著提升,分别提高34.8%、12.5%和9.6%。在权...
文心大模型X1.1是百度推出的深度思考模型,基于迭代式混合强化学习框架,在事实性、指令遵循能力和智能体能力上显著提升,分别提高34.8%、12.5%和9.6%。在权...
SpikingBrain-1.0(瞬悉 1.0)是中国科学院自动化研究所推出的类脑脉冲大模型。模型基于内生复杂性,用新型非Transformer架构,突破Transformer架构在处理超...
混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,支持原生2K分辨率,具备强大的复杂语义理解能力,能精准生成场景细节、人物表情和动作。
K2-Think是阿联酋穆罕默德·本·扎耶德人工智能大学MBZUAI与G42联合推出的开源推理模型,拥有320亿参数,在数学推理、代码生成和科学知识等多领域表现出色,尤...
SRPO(Semantic Relative Preference Optimization)是腾讯混元推出的文本到图像生成模型,通过将奖励信号设计为文本条件信号,实现对奖励的在线调整,减少对...
Qwen3-Next是阿里通义开源的新一代混合架构大模型,包含指令版(Qwen3-Next-80B-A3B-Instruct )和思维版(Qwen3-Next-80B-A3B-Thinking)两个版本。
AutoDocs 是 TrySita 开发的开源代码文档自动化工具,帮助开发者高效生成和维护代码库文档。通过深度解析代码库的抽象语法树(AST)和构建依赖图,生成准确且...
AnyI2V 是复旦大学、阿里巴巴达摩院和湖畔实验室联合推出的创新图像动画生成框架。框架无需大量训练数据,能将静态条件图像(如网格、点云等)转化为动态视频...
MiniMax Music 1.5 是先进的 AI 音乐生成模型,支持最长 4 分钟的音乐创作,能根据用户输入的风格、情绪和场景等自然语言描述生成高质量的音乐作品。
FireRedTTS-2 是先进的长格式流式文本转语音(TTS)系统,专注于多说话人对话生成。采用12.5Hz流式语音分词器和双Transformer架构,能实现低延迟、高保真、多...
HuMo是清华大学和字节跳动智能创作实验室共同提出的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细...
Stand-In 是腾讯微信视觉团队推出的轻量级的视频生成框架,专注于生成身份保护视频。框架通过训练1%的基础模型参数,能生成高保真度、身份一致的视频,且具有...
ST-Raptor 是用在半结构化表格问答的工具,仅需一个 Excel 格式的表格和一个自然语言问题作为输入,能产生精确的答案。
Strix 是开源的 AI 驱动安全测试工具,能帮助开发人员和安全团队快速发现、验证应用程序中的漏洞。工具通过模拟真实黑客攻击,动态运行代码,减少误报。
IndexTTS2是B站语音团队开发的新型文本转语音(TTS)模型,已经正式开源。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归TTS...
AgentCLUE-ICabin 是专注于汽车智能座舱场景的 AI 智能体测评基准,全面评估大语言模型在智能座舱中的工具调用能力。基准基于12大常见用车场景构建,覆盖从日...
MobileLLM-R1是Meta推出的一系列专为数学、编程和科学推理设计的高效推理模型。系列包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通...
veCLI 是字节跳动火山引擎推出的命令行 AI 工具,提升开发效率。无缝集成豆包大模型 1.6 等多种模型,开发者可通过自然语言交互,快速生成代码并完成本地部署...
ZipVoice 是小米集团 AI 实验室发布的高效零样本语音合成(TTS)模型。模型基于 Flow Matching 架构,包含 ZipVoice(单说话人)和 ZipVoice-Dialog(对话语...
PP-OCRv5 是百度推出的高效、精准的文字识别模型。模型基于两阶段处理流程,专门用在快速、准确地检测和识别图像中的文字。
Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,专为企业级声音制作设计。模型具备快速生成(三分钟音频仅需两秒)、动态音乐创作和音频修复功能。
Live Interpreter API 是 Azure 语音翻译的新功能,能实现实时的多语言语音翻译。无需用户手动设置输入语言, Live Interpreter API 能自动连续识别正在使用...
Youtu-GraphRAG是腾讯优图实验室开源的图检索增强生成框架,通过将知识组织成图谱,结合大语言模型进行检索和推理,帮助模型更精准地回答复杂问题,减少“胡言...
ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长...