面壁智能 VoxCPM 1.5 开源,语音生成能力再升级
VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。
VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。
生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Shopify等企业。
Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。
智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。
蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。
智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。
美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资,估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立,专注于“AI+法律”领域,法律AI平台包含AI助理、文档库等功能,已与美国百强律所中的50家合作。Harvey已获7轮融资,总融资额超9.6亿美元,OpenAI创业基金、谷歌风投等多次参与投资。
腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确率的同时显著降低思维链长度,推理效率领先。
美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。
智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。
Google正式发布Workspace Studio,是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体,实现从简单任务到复杂流程的自动化。
AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。
谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。
可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。
火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升,重点强化多图组合生成、海报排版与Logo设计能力,可精准满足广告营销、电商运营、影视制作等商业场景需求。
可灵2.6全量上线,是其首个“音画同出”模型,能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径,适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。
小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。
国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。
商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO,突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新,实现视觉与语言的深层融合。
在AWS re:Invent大会上,亚马逊云科技发布十大AI更新:推出自研AI芯片Trainium4(性能提升6倍)及Trainium3服务器;第二代大模型Amazon Nova 2系列(Lite、Pro、Sonic、Omni)性能超越多款主流模型;Bedrock平台新增18款开源模型,包括阿里、Kimi等中国模型;推出AgentCore开发工具和四大智能体(如自主编程、安全运维),强化企业级AI应用。
Anthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。
Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。