MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模...
MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模...
元智医疗大模型是联影智能推出的面向医疗领域的多模态人工智能模型,通过融合文本、影像、视觉、语音等多种模态数据,为医疗场景提供深度智能化解决方案。
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决...
Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍...
PreenCut是开源的AI视频剪辑工具,基于WhisperX实现高精度语音转录,结合DeepSeek和豆包API提供语义化搜索和智能剪辑功能。工具具备自动语音转录、AI智能分段...
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学...
Ring-lite是蚂蚁技术AntTech团队推出的基于MoE架构的轻量级推理模型。模型用Ling-lite-1.5为基础,基于独创的C3PO强化学习训练方法,在多项推理Benchmark上达...
PosterCraft是香港科技大学(广州)和美团等机构推出的用在生成高质量美学海报的统一框架。框架摒弃模块化设计流程和固定的预定义布局,支持模型自由探索连贯...
Confucius3-Math是网易有道开源的“子曰3”系列大模型中的数学模型,是国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在...
Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的...
ImmerseGen是字节跳动的PICO团队和浙江大学联合推出的创新3D世界生成框架。框架根据用户输入的文字提示,基于Agent引导的资产设计和排列,生成带有alpha纹理...
Gemini Robotics On-Device是谷歌DeepMind推出的首个可在机器人本地运行的视觉-语言-动作(VLA)模型。模型具备强大的离线操作能力,能遵循自然语言指令完成...
OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。模型根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完...
AnimaTensor是CagliostroLab团队和TensorArt共同推出的二次元图像生成模型。基于创新的V-Prediction技术,用预测图像生成过程中的“速度”优化噪声调度和采样策...
DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制,基于深度学习分析非增强CT...
Seed1.6是字节跳动Seed团队推出的通用模型系列,融合多模态能力,支持256K长上下文深度推理。Seed1.6沿用Seed1.5稀疏MoE探索成果,经纯文本预训练、多模态混...
Gemini CLI 是谷歌开源的终端AI编程工具,免费用Gemini 2.5 Pro模型。Gemini CLI提供强大 AI 功能,如代码理解、文件操作、命令执行及动态排查问题,助力开发...
AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入,预测数千种表征其调控活性的分子特性,评估...
Claudia 是为 Claude Code 设计的桌面应用程序和工具包,通过直观的图形界面提升 AI 辅助开发的效率和安全性。支持项目与会话管理,用户可以轻松浏览、恢复过...
DRA-Ctrl(Dimension-Reduction Attack)是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维...
Kwai Keye-VL 是快手自主研发的多模态大语言模型,基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器,支持动态分辨率输入。模型能深度融合和处理文本、图...
Twocast是AI驱动的双人播客生成器,支持生成双人对话形式的播客内容。生成器支持多语言、多音色,且能基于主题、链接、文档等多种方式快速生成3-5分钟的播客。
VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habit...
Nanonets-OCR-s(Nanonets OCR Small)是Nanonets推出的图像到 Markdown 的 OCR 模型,支持将图像中的文档内容转换为结构化的 Markdown 格式。模型能提取文本...