EmaFusion 是人工智能初创公司 Ema 推出的多模型融合技术,为企业级 AI 应用提供高效、灵活且低成本的解决方案。通过动态结合 100 多种语言模型,根据任务需...
EmaFusion 是人工智能初创公司 Ema 推出的多模型融合技术,为企业级 AI 应用提供高效、灵活且低成本的解决方案。通过动态结合 100 多种语言模型,根据任务需...
Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音乐生成模型,作为 Vertex AI 平台的核心组件,具备高保真音频生成能力,能输出 48kHz、24-bit 的专业级立体声音...
Concept Lancet(CoLan)是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet基于在潜在空间中对图像进行稀疏分解,将图像表示...
LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 构建的开源项目,用在开发与 WhatsApp 用户互动的 AI Agent。项目支持多代理架构和图谱处理,能处理文...
UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义...
DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和DeepSeek R1两种模型的优势,基于创新的构建方法,将两者的神经网络组件融...
DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多...
Spatial-RAG(Spatial Retrieval-Augmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型(LLMs)空间推理能力的框架。...
ChatDLM是 Qafind Labs推出的全球最快扩散语言模型,核心定位是突破传统Transformer架构在长上下文处理与推理效率上的瓶颈。模型融合了“区块扩散(Block Diff...
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合...
NodeRAG 是基于异构图的检索增强生成(Retrieval-Augmented Generation,RAG)系统。通过构建包含多种节点类型的异构图,将文档信息和语言模型生成的见解整合...
Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复...
Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基...
风宇是中国气象局联合南昌大学和华为共同推出的全球首个全链式空间天气大模型。模型基于创新的链式训练结构,结合卫星观测数据与数值模式数据,实现太阳风、...
RepText 是Shakker Labs 和 Liblib AI推出的多语言视觉文本渲染框架,基于复制字形而非理解文本内容实现高质量的文本渲染。框架基于预训练的单语言文本到图像...
Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采用创新的...
F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练,支持商业用途。F-Lite将T5-XXL作为文本编码器,基于抽取第17...
ACI.dev 是开源的基础设施平台,专为 AI 智能体设计,提供强大的工具调用支持。集成了 600 多种预构建工具,涵盖 Gmail、Slack、Notion 等常见应用,支持通过...
URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将LLM的通用知识与电商领域的专业知识相结合,解决传统LLM...
DeepSeek-Prover-V2 是深度求索团队 DeepSeek 开源的专注于数学推理的超大规模语言模型。包含两个版本:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B,...
Rowboat 是开源的低代码 AI IDE,专注于构建多智能体助手的 MCP(多云平台)工具。通过可视化界面和 AI 辅助开发功能,帮助用户快速设计、配置和测试智能体工...
Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5-Omni-7B 的精简版,专为消费级硬件设计,支持文本、音频、图像和视频等多种输...
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传...
VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管理、...