Ito是开源的智能语音听写工具,通过其独特的“VibeTyping”技术,将用户的口语意图转换为精美文本。支持在邮件客户端、文档、聊天平台、浏览器和代码编辑器等各...
Ito是开源的智能语音听写工具,通过其独特的“VibeTyping”技术,将用户的口语意图转换为精美文本。支持在邮件客户端、文档、聊天平台、浏览器和代码编辑器等各...
GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延...
Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索(TR)方面达到了行业领先水平,在时空定位(STG)和视频问答(Video QA)...
可灵O1(可灵视频 O1 模型)是可灵AI推出的全球首个统一多模态视频生成模型。模型通过创新的多模态视觉语言(MVL)架构,实现视频生成、编辑与理解的无缝融合。
Gen-4.5 是RunWay推出的视频生成模型,模型在视频生成的运动质量、视觉逼真度和提示词遵循度等方面树立新的行业标准。Gen-4.5 能生成电影级、极为逼真的画面...
PixVerse V5.5 是爱诗科技推出的视频生成大模型。模型通过自研的多模态理解和生成技术,支持音画同步生成,简化从构思到成片的复杂工作流程,提高创作效率。
Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集...
NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构,作为首个原生多模态架构(Native VLM),NEO通过底层架构的深度创新,打破了传统多模态模型的局...
Mistral 3 是 Mistral AI 推出的新一代开源 AI 模型系列,包括小型的 Ministral 3(3B、8B、14B 参数)和大型的 Mistral Large 3(675B 总参数,41B 激活参数...
Amazon Nova 2 是亚马逊云科技(AWS)推出的一系列先进AI模型,专为企业多样化需求设计。Amazon Nova 2 系列包含四款模型:Nova 2 Lite(成本优化的文本生成...
MemMachine是开源的AI记忆系统,专为AI Agent设计,提供短期、长期和个性化记忆功能。MemMachine通过情景记忆、语义记忆和用户画像记忆,帮助AI应用学习、存...
TalkCody 是开源的 AI 编程助手,帮助开发者更高效地构建软件。采用 Rust 和 Tauri 构建,具备原生性能和低资源占用的特点。TalkCody 支持多模型自由切换,涵...
Seedream 4.5(Doubao-Seedream-4.5)是字节跳动团队推出的豆包图像创作模型,专为商业生产力场景设计。模型在主体一致性、指令精准度、空间逻辑和美学表现力...
可灵2.6是可灵AI团队推出的创新AI视频创作模型,实现了音画同步生成,能通过文本或图片输入,自动生成包含自然语音、匹配音效和环境氛围的视频。
Flowra 是 ModelScope 联合呜哩WULI 团队开源的 AI 工作流开发工具,是 FlowBench 的核心引擎。工具提供图执行引擎和节点包开发工具链,支持丰富的类型系统、...
Gemini 3 Deep Think 是谷歌 DeepMind 推出的超强推理模型,具备并行思考能力,可同时探索多个假设,选择最优答案路径。
Workspace Studio 是谷歌推出的 AI 自动化工具,用户可通过自然语言描述任务,基于 Gemini 模型快速生成定制化的 AI 智能体,实现复杂工作流程的自动化。工具...
RoboCOIN是北京智源人工智能研究院联合多所高校和企业发布的具身智能数据集。包含超过18万条演示数据,覆盖421种任务和16个不同场景,如家庭、商业、工厂等。...
NewBie-image-Exp0.1 是 NewBieAi Lab 开源的实验性图像生成模型,基于 Next-DiT 架构,参数量为 3.5B。模型使用 full dan + 1m e621 数据集进行预训练,并在...
混元2.0是腾讯混元最新发布的先进人工智能语言模型,包括Tencent HY 2.0 Think和Tencent HY 2.0 Instruct两个版本。采用混合专家(MoE)架构,拥有4060亿总参...
LongCat-Image 是美团开源的高性能图像生成模型,仅用 6B 参数在文生图和图像编辑上达到开源顶尖水平。模型采用创新架构和训练策略,支持高质量中文文字渲染...
GLM-4.6V 是智谱推出的多模态大模型,包含面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
Open-AutoGLM 是智谱开源的手机端智能助理框架,基于 AutoGLM 构建,能通过自然语言指令实现手机操作的自动化。Open-AutoGLM通过 Phone Use 能力框架,将自然...
Devstral 2 是 Mistral AI 推出的新一代开源编程模型系列,包含 123B 参数的 Devstral 2 和 24B 参数的 Devstral Small 2。Devstral 2 拥有 256K 上下文窗口...