RAGEN - 训练大模型推理 Agent 的开源强化学习框架
RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)...
RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)...
文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化,具备多模态、强推理能力,能处理文本、图像等多种输入形...
文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升级版本,具备更先进的思维链和深度思考理能力,擅长文学创作、逻辑推理等,进一步...
Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型开发,支持实现零样本学习,无需额外训练快速生成高精度的口型同步视频。
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视...
OpenMath-Nemotron是英伟达推出的一系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReasoning进行...
Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推...
Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 Firefly 图像模型,支持生成逼真的图像,提供更高的分辨率(最...
Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模...
WebSSL(Web-scale Self-Supervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模...
Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型(LLM)框架,支持将机器学习领域的科学论文自动转换为可运行的代码仓库。
EmaFusion 是人工智能初创公司 Ema 推出的多模型融合技术,为企业级 AI 应用提供高效、灵活且低成本的解决方案。通过动态结合 100 多种语言模型,根据任务需...
Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音乐生成模型,作为 Vertex AI 平台的核心组件,具备高保真音频生成能力,能输出 48kHz、24-bit 的专业级立体声音...
Concept Lancet(CoLan)是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet基于在潜在空间中对图像进行稀疏分解,将图像表示...
LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 构建的开源项目,用在开发与 WhatsApp 用户互动的 AI Agent。项目支持多代理架构和图谱处理,能处理文...
UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级语义...
DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和DeepSeek R1两种模型的优势,基于创新的构建方法,将两者的神经网络组件融...
DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架,基于预训练的扩散变换器(DiT)模型实现多...
Spatial-RAG(Spatial Retrieval-Augmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型(LLMs)空间推理能力的框架。...
ChatDLM是 Qafind Labs推出的全球最快扩散语言模型,核心定位是突破传统Transformer架构在长上下文处理与推理效率上的瓶颈。模型融合了“区块扩散(Block Diff...
Qwen3 是阿里巴巴推出的新一代大型语言模型,Qwen3 支持“思考模式”和“非思考模式”两种工作方式,思考模式模型会逐步推理,经过深思熟虑后给出最终答案,适合...
NodeRAG 是基于异构图的检索增强生成(Retrieval-Augmented Generation,RAG)系统。通过构建包含多种节点类型的异构图,将文档信息和语言模型生成的见解整合...
Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复...
Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基...