DeepSeek R1-Zero - DeepSeek推出的开源推理模型,基于纯强化学习训练
DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数...
DeepSeek R1-Zero 是 DeepSeek 团队开发的完全依赖纯强化学习(RL)训练的推理模型,未使用任何监督微调(SFT)数据。在推理任务上表现出色,在 AIME 2024 数...
VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识,包括规则、...
Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,...
3DIS-FLUX是基于深度学习的多实例生成框架,通过解耦实例合成实现高质量的图像生成。结合3DIS框架的深度驱动场景构建和FLUX模型的扩散变换器架构,分为两阶段...
DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型音乐生成模型,通过优化扩散模型的推理时间,实现快速且可控的音乐生成。模型基于扩散模型的推理时间优化...
DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图像提示(image prompts)和文本提示...
Textoon 是阿里巴巴集团通义实验室推出的创新项目,首个能根据文本提示生成Live2D格式2D卡通角色的方法。基于先进的语言和视觉模型,能在一分钟内生成多样化...
子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构,专为消费级显卡设计,能在低显存设备上稳定运行。通过思维链技术,模拟...
豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基...
OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力,实现机器人在非...
WebWalker是阿里巴巴自然语言处理团队开发的用于评估和提升大型语言模型(LLMs)在网页浏览任务中性能的工具。通过模拟网页导航任务,帮助模型更好地处理长上...
VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频...
EmoLLM 是专注于心理健康支持的大型语言模型,通过多模态情感理解为用户提供情绪辅导和心理支持。结合了文本、图像、视频等多种数据形式,基于先进的多视角视...
Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的VAE模型以及深度优化的DiT...
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和...
EMO2 (End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,全称为“末端效应器引导的音...
PaSa是字节跳动研究团队(ByteDance Research)推出的基于强化学习的学术论文检索智能体。能模仿人类研究者的行为,自动调用搜索引擎、浏览相关论文并追踪引...
Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能力,在数学、代码等多个权威评测中表现优异,...
TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进行无缝组合生成。...
Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。专为医疗场景优化,同时具备强大...
CogVideoX-2 是智谱 AI开源的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连贯...
CogView-4是智谱AI推出的文本到图像生成模型,基于 Transformer 架构的扩散模型,用于生成高质量图像。通过优化参数规模和使用高质量图像微调数据集,能生成...
llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented Generation)流程。llmware支持私有部署,能安全集成企业...
FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电...