Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...
Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...
VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场...
Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型,能处理文本、图像和视频输入(不包括音频),擅长处理需要深度理解上下文、多步骤规划以及跨...
ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力...
FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较...
Klavis AI 是一个开源的 MCP(Multimodal Communication Protocol,多模态通信协议)集成平台,帮助 AI 应用快速接入生产级的 MCP 服务器和客户端。平台提供...
oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多...
Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近甚至达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每...
Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Linux 虚拟机中运行,基于预装的程序(如 Firefox)完成用户指定的任务,例如用...
Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型...
Avatar IV 是HeyGen 最新推出的AI数字人模型,用在快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,能生成自然流畅的视频。模型基于音频驱动的表情...
Insert Anything是浙江大学、哈佛大学和南洋理工大学的研究人员联合推出的基于上下文编辑的图像插入框架。框架基于将参考图像中的对象无缝插入到目标场景中,...
QLIP(Quantized Language-Image Pretraining)是英伟达等推出的视觉标记化方法,结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化(BSQ)的自...
ZeroSearch 是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,基于强化学习激励大模型的搜索能力,无需与真实搜索引擎交互。框架爱基于大模型预训练知识,...
Chatlog是开源的聊天记录分析工具,支持高效解析、可视化和挖掘微信、QQ、Telegram等主流聊天工具的聊天记录。工具支持从本地数据库文件获取数据,提供智能分...
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperE...
FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工...
Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM ...
Seed-Coder是字节跳动开源的8B规模代码模型系列,提升代码生成与理解能力。包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理...
LegoGPT 是卡内基梅隆大学推出的乐高积木设计模型,支持基于文本提示生成物理稳定且能构建的乐高积木模型。LegoGPT 基于自回归语言模型和大规模乐高设计数据...
BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
LTXV-13B 是Lightricks推出的开源 AI 视频生成模型,拥有 130 亿参数。具备极高的生成速度,比同类产品快 30 倍,能在普通消费级显卡(如 4090/5090)上运行...
PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复(Image Inpainting)模型。基于引入潜在类别引导(Latent Categories Guidance, LCG)范式,分...