DreamActor-H1 - 字节跳动推出的产品演示视频生成框架
DreamActor-H1是字节跳动推出的基于扩散变换器(Diffusion Transformer, DiT)的框架,支持从配对的人类和产品图像生成高质量的人类产品演示视频。框架注入人...
DreamActor-H1是字节跳动推出的基于扩散变换器(Diffusion Transformer, DiT)的框架,支持从配对的人类和产品图像生成高质量的人类产品演示视频。框架注入人...
Kimi-Dev是Moonshot AI推出的开源代码模型,专为软件工程任务设计。模型拥有 72B 参数量,编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。在 S...
ThinkChain是开源框架,能提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI(如 Claude)的思考过程中,形成动态的反馈循环,让AI能调用工具,根...
Office-PowerPoint-MCP-Server 是基于 Model Context Protocol(MCP)的开源工具,专门用在演示文稿的自动化创建和编辑。工具基于 python-pptx 库实现对 Powe...
MeWM(Medical World Model)是创新的医学模型,由香港科技大学(广州)等机构提出,通过模拟疾病动态来辅助临床决策。由策略模型、动态模型和逆向动态模型组...
Skywork-SWE-32B是昆仑万维开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,特别是仓库级代码修复能力,能在多轮交互和长文...
Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶...
SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,...
OneRec 是快手推出的新型端到端生成式推荐系统。采用编码器-解码器架构,通过稀疏 Mixture-of-Experts(MoE)技术提升模型容量,保持高效的计算性能。与传统...
Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能...
盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升...
Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音...
MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模...
元智医疗大模型是联影智能推出的面向医疗领域的多模态人工智能模型,通过融合文本、影像、视觉、语音等多种模态数据,为医疗场景提供深度智能化解决方案。
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决...
Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍...
PreenCut是开源的AI视频剪辑工具,基于WhisperX实现高精度语音转录,结合DeepSeek和豆包API提供语义化搜索和智能剪辑功能。工具具备自动语音转录、AI智能分段...
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学...
Ring-lite是蚂蚁技术AntTech团队推出的基于MoE架构的轻量级推理模型。模型用Ling-lite-1.5为基础,基于独创的C3PO强化学习训练方法,在多项推理Benchmark上达...
PosterCraft是香港科技大学(广州)和美团等机构推出的用在生成高质量美学海报的统一框架。框架摒弃模块化设计流程和固定的预定义布局,支持模型自由探索连贯...
Confucius3-Math是网易有道开源的“子曰3”系列大模型中的数学模型,是国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在...
Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的...
ImmerseGen是字节跳动的PICO团队和浙江大学联合推出的创新3D世界生成框架。框架根据用户输入的文字提示,基于Agent引导的资产设计和排列,生成带有alpha纹理...
Gemini Robotics On-Device是谷歌DeepMind推出的首个可在机器人本地运行的视觉-语言-动作(VLA)模型。模型具备强大的离线操作能力,能遵循自然语言指令完成...