混元3D v2.5 - 腾讯推出的最新版 3D 生成模型
混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的...
混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到1024,实现超高清的...
AvatarFX 是 Character.AI 推出的先进 AI 视频生成模型。基于上传一张图片和选择声音,让角色瞬间“活起来”,实现说话、唱歌和表达情感。AvatarFX支持多角色、...
Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义...
SocioVerse(众生) 是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型(LLM)驱动的智能体和包含1000万真实用户...
Pad.ws 是创新的在线开发环境,结合了白板功能与完整的 IDE 工具。基于浏览器运行,无需安装额外软件,用户可以随时随地通过任何设备访问。将交互式白板与代...
GPT-image-1是OpenAI推出的原生多模态图像生成模型,基于API向开发者开放使用。模型根据文本提示和图像生成高质量、专业级的图像,支持多种风格和自定义功能...
Eagle 2.5是英伟达推出的视觉语言模型,专注于长上下文多模态学习的 AI 模型,参数规模仅为 8B。参数量较小,但在处理高分辨率图像和长视频序列方面表现出色...
Skywork-R1V 2.0 是昆仑万维最新开源的多模态推理模型,专为复杂推理任务设计,具备强大的视觉与文本推理能力。模型基于混合强化学习和多模态奖励模型(Skywo...
Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型,支持通用控制输入(如线条、姿态、深度)和内置修复功能。模型基于一个模型满足多种创意需求,...
DAM-3B(Describe Anything 3B)是英伟达推出的多模态大语言模型,专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定...
Cooragent是由清华大学LeapLab团队推出的开源AI Agent协作框架。用户基于简单的一句话描述快速创建Agent,支持Agent之间的协作,完成复杂任务。Cooragent基于...
Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话(平均响应延迟约2.2秒...
LongPort MCP(Model Context Protocol)是长桥集团推出的证券行业首个券商MCP。基于 LongPort MCP,AI 能快速调用证券行情数据、执行股票交易、管理资产组合...
RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)...
文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化,具备多模态、强推理能力,能处理文本、图像等多种输入形...
文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升级版本,具备更先进的思维链和深度思考理能力,擅长文学创作、逻辑推理等,进一步...
Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型开发,支持实现零样本学习,无需额外训练快速生成高精度的口型同步视频。
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视...
OpenMath-Nemotron是英伟达推出的一系列开源数学推理模型,专门用在解决复杂数学问题,包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReasoning进行...
Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推...
Firefly Image Model 4 是 Adobe 最新推出的图像生成模型,是目前最快、最具控制性和最逼真的 Firefly 图像模型,支持生成逼真的图像,提供更高的分辨率(最...
Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模...
WebSSL(Web-scale Self-Supervised Learning)是Meta、纽约大学等机构推出的视觉自监督学习(SSL)系列模型,基于大规模网络数据(如数十亿图像)训练视觉模...
Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型(LLM)框架,支持将机器学习领域的科学论文自动转换为可运行的代码仓库。