Kimi K2.6 - 月之暗面开源的最新旗舰模型
Kimi K2.6 是月之暗面开源的最新旗舰模型,具备行业领先的代码生成、长程任务执行与 Agent 集群能力。模型在 Humanity's Last Exam、SWE-Bench Pro、DeepSear...
Kimi K2.6 是月之暗面开源的最新旗舰模型,具备行业领先的代码生成、长程任务执行与 Agent 集群能力。模型在 Humanity's Last Exam、SWE-Bench Pro、DeepSear...
Qwen3.6-Max-Preview 是阿里通义千问团队推出的下一代旗舰大模型早期预览版。相比 Qwen3.6-Plus,模型在智能体编程、世界知识和指令遵循三大维度实现显著提升...
融光(AI Fusion Video) 是开源的全流程AI视频创作平台,基于Agent架构能实现从剧本编写到视频生成的自动化工作流。
Fun-ASR1.5是阿里通义团队推出的端到端语音识别大模型的新一代版本,单模型支持30种语言高精度识别,覆盖中文七大方言体系及二十余种地方口音,专项优化古诗...
天禧AI Claw是联想基于OpenClaw架构推出的开箱即用型AI智能体助理,采用端云混合部署模式,支持PC、Phone、Pad多端无缝协同。工具无需本地环境配置即可7×24小...
HyperFrames是HeyGen开源的AI原生视频渲染框架,采用'Write HTML, Render video'理念,专为AI Agent和开发者设计。框架将视频定义为HTML文件,通过data-*属性...
Audio Flamingo Next 是NVIDIA与马里兰大学联合开源的新一代音频语言模型(LALM),作为Audio Flamingo系列的最新版本,支持长达30分钟的复杂音频输入,覆盖...
Voicebox 是开源的本地语音合成工具,基于 Tauri (Rust) 与 React 构建的跨平台桌面应用。工具提供声音克隆、文本转语音、音频后期处理及多轨叙事编辑功能,...
LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。
Claude Opus 4.7 是 Anthropic 推出的最新旗舰大模型,为 Claude Opus 4.6 的直接升级版。模型在高级软件工程任务上表现突出,SWE-bench Pro 得分提升至 64.3...
Qwen3.6-35B-A3B是阿里通义千问团队推出的开源混合专家(MoE)模型,总参数量350亿,激活参数30亿。模型主打极致推理效率与智能体编程能力,在多项编程基准测...
GPT-Rosalind是OpenAI推出的生命科学专用推理模型,用DNA双螺旋结构发现者罗莎琳德·富兰克林命名。模型针对50种生物学工作流深度调优,具备假设生成、实验设...
GPT-image-2 是OpenAI推出的下一代原生图像生成模型,据传内部代号为「Spud」,目前已在ChatGPT进行灰度测试。模型于2026年4月初以'maskingtape-alpha'等代号...
Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve...
Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型,提供更强的可控性、表现力和音质。模型支持70多种语言,引入音频标签技术,可通过自然语言指令精...
混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四...
HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品,定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术,支持无限延展的实时内容生成...
StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。
Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光...
MAI-Image-2-Efficient是微软推出的自研文生图模型,为MAI-Image-2的轻量高效版本,主打高性价比商业量产,在保持照片级真实图像质量的同时,实现成本降低41%...
SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索...
Spark 2.0是World Labs(李飞飞创立)开源的Web端3D高斯溅射渲染引擎,基于Three.js和WebGL2构建。Spark 2.0首创LoD细节层次系统、渐进式流式传输与虚拟内存...
ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。
OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、...