Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一...
Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一...
Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言...
FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(...
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2...
Qwen-TTS是阿里通义推出的语音合成模型,具备自然、稳定、快速的特点。模型能根据文本和音色参数输出高质量音频,支持中英文及方言合成,如北京话、上海话、...
Speakr是开源免费的AI会议助手,支持确保数据绝对私密的前提下,自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行,所有数据处理均...
Goedel-Prover-V2 是普林斯顿大学、清华大学、英伟达等顶尖机构联合推出的开源定理证明器。Goedel-Prover-V2通过分层式数据合成、验证器引导的自我修正和模型...
MirageLSD 是 Decart AI 团队推出的全球首个 Live-Stream Diffusion(实时流扩散)AI 视频模型,能实现无限时长的实时视频生成,延迟低至 40 毫秒以内,支持 ...
ChatFlow 是开源的简易工作流引擎,支持将用户设计的高质量流程与 AI 的生成能力相结合。ChatFlow支持可视化组件和自动化执行,能帮助开发人员快速生成代码、...
雾象Fogsight是大型语言模型(LLM)驱动的动画生成智能体,用户输入抽象概念或词语,能生成高水平的生动动画。核心功能包括“概念即影像”,能将输入的主题转化...
OpenBB 是开源的金融平台,支持为个人和企业提供强大的投资研究工具。平台集成股票、期权、加密货币、外汇、宏观经济和固定收益等多种金融数据,支持用 Pytho...
OpenReasoning-Nemotron是英伟达开源的一系列推理能力强大的大型语言模型(LLM),基于DeepSeek R1 0528 模型蒸馏而成,参数规模涵盖1.5B、7B、14B和32B。
Seed-X是字节跳动Seed团队推出的开源多语言翻译模型,拥有70亿参数,支持28种语言的双向翻译。Seed-X通过高质量的多语言数据预训练、指令微调和强化学习相结...
JoyAgent-JDGenie是京东开源的首个高完成度轻量化通用多智能体产品,作为完整的端到端智能体系统,无需二次开发能直接使用,支持多种任务处理,如生成报告、...
Qwen3-Coder 是阿里通义千问团队推出的强大代码生成模型,拥有 480B 参数和 35B 激活参数,支持原生 256K token 上下文,支持扩展达到 1M token。模型在 Agen...
Mureka V7是昆仑万维推出的先进的AI音乐模型,具备强大的音乐创作能力。模型基于MusiCoT(音乐思维链)技术,先规划整体音乐结构再填充细节,生成的音乐更具...
HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景...
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语...
DeerFlow 是字节跳动开源的深度研究框架,能帮助用户高效完成复杂的研究任务。DeerFlow结合语言模型与多种工具,如网络搜索、爬虫和 Python 执行,能快速生成...
WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模...
Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模型版本,分别适用...
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动...
VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出...