昆仑天工面向全球发布“Skywork桌面版”
昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。
昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。
通义开源Qwen3-Coder-Next编程智能体模型,采用80B总参数的MoE架构,每次推理仅激活3B参数,显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率,性能接近更大规模的稠密模型。
猎豹公司推出首款国产Clawbot工具“元气AI Bot”,支持在普通Windows电脑本地部署,用户可通过手机飞书或钉钉远程控制,用自然语言指令让AI自动操作电脑,如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能,推出多款个性化AI伙伴角色。
马斯克旗下的人工智能公司xAI正式发布Grok Imagine 1.0版本,是该AI视频生成工具的重大升级。新版本支持生成10秒时长、720p分辨率的视频,显著提升了音频质量,实现了音画同步与情感化配音功能。
马斯克正式宣布SpaceX完成对xAI的收购,合并后公司估值达1.25万亿美元,每股发行价526.59美元。马斯克在内部信中表示,此次整合将打造”地球上最具雄心的垂直创新引擎”,涵盖AI、火箭技术、太空互联网等多领域。合并后,SpaceX将推进在太空部署数据中心的计划,利用太空太阳能资源降低AI算力成本。
智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批量处理,吞吐量达1.86页/秒。
Qoder智能编程平台上线首个定制模型Qwen-Coder-Qoder,5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座,针对Qoder的Agent框架进行深度优化,在真实软件工程评测集上任务解决率超过Cursor Composer-1,Windows系统终端命令准确率领先50%。
Vidu Q3 全球震撼来袭,作为全球首个支持16秒音视频直出的AI视频生成模型,专为漫剧、短剧、影视剧创作设计。模型实现声画同步高清直出,支持多镜头自由切换、多语言对话与文字渲染,具备电影级视听张力,让AI视频进入”一键成片”时代。 AI
跨赴科技近日完成数千万元Pre-A+轮融资,由哈勃投资和正扬投资领投,老股东奇绩创坛跟投,距上一轮融资仅四个月。核心产品“CodeFlying码上飞”年度经常性收入已突破1000万元,海外业务快速增长。
阶跃星辰发布新一代开源基座模型 Step 3.5 Flash,专为 Agent 场景设计。模型采用稀疏 MoE 架构,具备 1960 亿参数,每个 token 仅激活约 110 亿参数,支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS,在 Agent 任务和数学推理上媲美闭源模型,并通过 MTP-3 技术实现单次预测 3 个 token,显著提升效率。
宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。
苹果公司以近20亿美元收购以色列AI初创企业Q.ai,为其自2014年收购Beats以来规模第二大的交易。Q.ai核心技术为通过分析面部微表情与肌肉运动识别“无声语音”,用户无需发声即可通过唇动输入指令。该技术有望集成至AirPods、iPhone及计划于2026年推出的AI眼镜中,实现私密、无干扰的交互体验。
OpenAI宣布将于2月13日从ChatGPT平台下线GPT-4o、GPT-4.1系列等旧模型。此举引发用户强烈反响,部分用户称GPT-4o的“温暖对话风格”具有不可替代的情感价值,尤其满足创意交流与情绪陪伴需求。OpenAI表示将集中资源优化主流模型,并在GPT-5.2中改进个性与创造力。API服务暂不受影响。
阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。
商汤科技开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。
昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。
昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。
MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。
MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。
阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。
OpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。
DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样按逻辑顺序理解复杂文档(如表格、多栏排版),在OmniDocBench评测中以91.09%的综合得分刷新纪录,阅读顺序识别误差降低33%。
Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。 AI
月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。