混元-A13B - 腾讯开源基于MoE架构的大语言模型
混元-A13B是腾讯最新推出的开源大语言模型,基于专家混合(MoE)架构,总参数量达800亿,激活参数为130亿。具备轻量级设计和高效推理能力,仅需1张中低端GPU...
混元-A13B是腾讯最新推出的开源大语言模型,基于专家混合(MoE)架构,总参数量达800亿,激活参数为130亿。具备轻量级设计和高效推理能力,仅需1张中低端GPU...
Kling-Foley 是可灵 AI 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效...
4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意...
FilMaster 是香港大学、快手科技、微软研究院和清华大学联合推出的AI电影制作系统,将电影制作原则与生成式人工智能相结合,实现从剧本到最终影片的全自动制...
MultiAgentPPT 是多智能体演示文稿生成系统,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架构。MultiA...
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感...
XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性(如姿势、风格、光照)的精细控制...
Fireplexity是Firecrawl推出的开源AI问答引擎,基于Next.js构建。Fireplexity支持让开发者快速搭建和托管自己的AI驱动的问答应用。具有快速部署(5分钟内启动...
MAI-DxO(Microsoft AI Diagnostic Orchestrator)是微软推出的先进人工智能系统,能提升医疗诊断的准确性和效率。基于模拟一组具有不同诊断方法的虚拟医生协...
RecGPT是淘天集团推出的百亿参数推荐大模型。现已全面接入手机淘宝首屏“猜你喜欢”信息流,基于融合多模态认知、用户行为分析及实时热点理解,精准捕捉用户长...
ML-Master是上海交通大学人工智能学院Agents团队推出AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色,以29.3%的平均奖牌率位居榜首,超越了微软的...
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕...
BlenderFusion是Google DeepMind推出的生成式视觉合成框架,将传统的 3D 编辑软件(Blender)与AI 模型相结合,实现精准的几何编辑和多样的视觉合成。
MirrorMe是阿里通义实验室推出的实时、高保真音频驱动肖像动画框架。框架基于LTX视频模型,结合三项关键创新,身份注入机制、音频驱动控制模块和渐进式训练策...
寸止是开源的AI对话增强工具,能解决AI助手提前终止对话的问题。工具具备智能拦截功能,当AI想要结束对话时,自动弹出继续选项,让用户能深入交流。寸止支持...
GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,...
Mercury是由Inception Labs推出的专为聊天应用量身定制的商业级扩散(LLM)。基于“从粗到细”(coarse-to-fine)的生成过程,能并行生成多个token,显著提高文...
Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准确的语音回答,无...
MuseSteamer是百度推出的多模态AI视频生成大模型。模型能根据输入的图片或文字提示,生成高质量的动态视频,支持电影级画质和音效一体化生成。
DeepSWE是Together.ai联合Agentica开源的AI Agent框架,基于Qwen3-32B模型,用强化学习训练而成。DeepSWE在SWE-Bench-Verified基准测试中表现出色,测试时扩...
Nxtscape 是基于 Chromium 的开源浏览器,主打本地 AI Agent和隐私保护。Nxtscape支持用户在设备上直接运行 AI 自动化任务(如填表、会议调度),数据不离开...
Skywork-Reward-V2是昆仑万维开源的第二代奖励模型系列,包含基于不同基座模型和大小的8个模型,参数规模从6亿到80亿不等。Skywork-Reward-V2系列模型在七大...
易采集EasySpider是开源、免费且无广告的可视化网络爬虫工具。工具支持跨平台运行(Windows、MacOS、Linux),基于图形化界面,用户无需编写代码能可快速设计...
Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音(TTS)技术。是创新的语音合成系统,能实时将文本转换为自然流畅的语音,无需等待完整...