AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Agno - 用于构建多模态智能体的轻量级框架

Agno 是构建智能代理（Agents）的轻量级框架。Agno 支持多模态（文本、图像、音频、视频）和多代理协作，能快速创建代理，速度比 LangGraph 快 5000 倍，支持...

AI Projects12/18/2025

Ola - 清华联合腾讯等推出的全模态语言模型

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文...

AI Projects12/18/2025

AlphaGeometry2 - 谷歌 DeepMind 推出解决复杂几何问题的AI系统

AlphaGeometry2 是谷歌 DeepMind 推出的先进的人工智能系统，专门用于解决国际数学奥林匹克竞赛（IMO）中的几何问题。结合了神经符号方法，将谷歌 Gemini 系...

AI Projects12/18/2025

EliGen - 浙大联合阿里推出的新型实体级可控图像生成框架

EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架，通过引入区域注意力机制，无需额外参数即可将实体提示和任意形状的空间掩码无缝集...

AI Projects12/18/2025

Hibiki - Kyutai Labs 推出的实时语音翻译模型

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型，能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构，同步处理源语...

AI Projects12/18/2025

HMA - MIT联合Meta等推出的机器人动作视频动态建模方法

HMA（Heterogeneous Masked Autoregression）是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的，用在建模机器人动作视频动态的方法。HMA基于异构预训练，用...

AI Projects12/18/2025

DeepRant 鲸喷 - 专为游戏玩家设计的多语言快捷翻译开源工具

DeepRant（中文名：鲸喷）是专为游戏玩家设计的多语言快捷翻译工具。DeepRant能够帮助玩家在国际服务器中快速进行文字交流，消除语言障碍。玩家在游戏中选中...

AI Projects12/18/2025

StochSync - AI图像生成技术，为360°全景图和3D网格纹理生成高质量图像

StochSync（Stochastic Diffusion Synchronization）是创新的图像生成技术，专门用于在复杂空间（如360°全景图或3D表面纹理）中生成高质量图像。结合了扩散同...

AI Projects12/18/2025

Sonic - 腾讯联合浙大推出的音频驱动肖像动画框架

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架，基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器，分别提取音...

AI Projects12/18/2025

FireRedASR - 小红书开源的自动语音识别模型

FireRedASR 是小红书开源的工业级自动语音识别（ASR）模型家族，支持普通话、中文方言和英语，在普通话 ASR 基准测试中达到了新的最佳水平（SOTA），在歌词识...

AI Projects12/18/2025

MVoT - 微软联合剑桥和中科院推出的多模态推理可视化框架

MVoT（Multimodal Visualization-of-Thought）是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式，基于生成图像可视化...

AI Projects12/18/2025

DynVFX - AI视频增强技术，将新动态内容与原始视频无缝融合

DynVFX是创新的视频增强技术，能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉语言模型（VLM），实现了在不...

AI Projects12/18/2025

WorldSense - 小红书联合上海交大推出的多模态全面评测新基准

WorldSense是小红书和上海交通大学推出的，用在评估多模态大型语言模型（MLLMs）在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSen...

AI Projects12/18/2025

Kiln AI- 开源 AI 原型设计和数据集协作开发工具，微调专属模型

Kiln AI是开源的 AI 开发工具，能简化大型语言模型（LLM）的微调、合成数据生成和数据集协作。Kiln AI提供直观的桌面应用程序，支持 Windows、MacOS 和 Linux...

AI Projects12/18/2025

Airweave - 将任何应用程序转为 Agent 知识库的开源工具

Airweave 是开源工具，能将任何应用程序的数据（包括API、数据库、网站等）同步到图数据库和向量数据库中，让数据能基于智能代理或搜索机制进行检索。Airweav...

AI Projects12/18/2025

MotionCanvas - 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频（I2V）生成方法，能将静态图像转化为具有丰富动态效果的视频。MotionCanvas基于引入...

AI Projects12/18/2025

MedRAX - AI医学推理Agent，用于胸部X光检查和解决复杂医学问题

MedRAX（Medical Reasoning Agent for Chest X-ray）是专门用于胸部X光检查的医学推理AI代理。通过整合最先进的胸部X光分析工具和多模态大型语言模型，形成一...

AI Projects12/18/2025

LangBot - 多模态即时聊天机器人构建与管理的开源平台

LangBot 是开源的即时聊天机器人平台，支持多平台（如 QQ、微信、飞书、Discord 等）和多种大语言模型（如 ChatGPT、DeepSeek、Gemini 等）。LangBot具备多模...

AI Projects12/18/2025

LLMDet - 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器，基于与大型语言模型（LLM）协同训练提升目标检...

AI Projects12/18/2025

VisoMaster - AI换脸和编辑软件，支持图片和视频高质量换脸

VisoMaster 是基于 AI 技术的换脸和编辑软件，功能强大操作简便。支持图片、视频以及直播换脸，能生成自然逼真的换脸效果，应用于娱乐、影视制作等领域。支持...

AI Projects12/18/2025

FlashVideo - 字节联合港大推出的高分辨率视频生成框架

FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架，通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。在第一...

AI Projects12/18/2025

ACE++ - 阿里通义推出的升级版图像生成与编辑模型

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具，通过指令化和上下文感知的内容填充技术，实现了高质量的图像创作和编辑功能。

AI Projects12/18/2025

LLaVA-Rad - 微软推出的小型多模态模型，专注于临床放射学报告生成

LLaVA-Rad是微软研究院推出的小型多模态模型，专注于临床放射学报告生成。是LLaVA-Med项目的分支，特别是胸部X光（CXR）成像。基于LLaVA-Med的基础架构和训练...

AI Projects12/18/2025

Satori - 开源的大语言推理模型，具备自回归搜索和自我纠错能力

Satori 是 MIT、哈佛大学等机构研究者推出的 7B 参数的大型语言模型，专注于提升推理能力。基于Qwen-2.5-Math-7B，Satori通过小规模的格式微调和大规模的增强...

←1...77 78 79 80 81 82 83...137 →

AI News

AI Projects12/18/2025

All Categories

AI News

Agno - 用于构建多模态智能体的轻量级框架

Ola - 清华联合腾讯等推出的全模态语言模型

AlphaGeometry2 - 谷歌 DeepMind 推出解决复杂几何问题的AI系统

EliGen - 浙大联合阿里推出的新型实体级可控图像生成框架

Hibiki - Kyutai Labs 推出的实时语音翻译模型

HMA - MIT联合Meta等推出的机器人动作视频动态建模方法

DeepRant 鲸喷 - 专为游戏玩家设计的多语言快捷翻译开源工具

StochSync - AI图像生成技术，为360°全景图和3D网格纹理生成高质量图像

Sonic - 腾讯联合浙大推出的音频驱动肖像动画框架

FireRedASR - 小红书开源的自动语音识别模型

MVoT - 微软联合剑桥和中科院推出的多模态推理可视化框架

DynVFX - AI视频增强技术，将新动态内容与原始视频无缝融合

WorldSense - 小红书联合上海交大推出的多模态全面评测新基准

Kiln AI- 开源 AI 原型设计和数据集协作开发工具，微调专属模型

Airweave - 将任何应用程序转为 Agent 知识库的开源工具

MotionCanvas - 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MedRAX - AI医学推理Agent，用于胸部X光检查和解决复杂医学问题

LangBot - 多模态即时聊天机器人构建与管理的开源平台

LLMDet - 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

VisoMaster - AI换脸和编辑软件，支持图片和视频高质量换脸

FlashVideo - 字节联合港大推出的高分辨率视频生成框架

ACE++ - 阿里通义推出的升级版图像生成与编辑模型

LLaVA-Rad - 微软推出的小型多模态模型，专注于临床放射学报告生成

Satori - 开源的大语言推理模型，具备自回归搜索和自我纠错能力

AI News

Agno - 用于构建多模态智能体的轻量级框架

Ola - 清华联合腾讯等推出的全模态语言模型

AlphaGeometry2 - 谷歌 DeepMind 推出解决复杂几何问题的AI系统

EliGen - 浙大联合阿里推出的新型实体级可控图像生成框架

Hibiki - Kyutai Labs 推出的实时语音翻译模型

HMA - MIT联合Meta等推出的机器人动作视频动态建模方法

DeepRant 鲸喷 - 专为游戏玩家设计的多语言快捷翻译开源工具

StochSync - AI图像生成技术，为360°全景图和3D网格纹理生成高质量图像

Sonic - 腾讯联合浙大推出的音频驱动肖像动画框架

FireRedASR - 小红书开源的自动语音识别模型

MVoT - 微软联合剑桥和中科院推出的多模态推理可视化框架

DynVFX - AI视频增强技术，将新动态内容与原始视频无缝融合

WorldSense - 小红书联合上海交大推出的多模态全面评测新基准

Kiln AI- 开源 AI 原型设计和数据集协作开发工具，微调专属模型

Airweave - 将任何应用程序转为 Agent 知识库的开源工具

MotionCanvas - 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MedRAX - AI医学推理Agent，用于胸部X光检查和解决复杂医学问题

LangBot - 多模态即时聊天机器人构建与管理的开源平台

LLMDet - 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

VisoMaster - AI换脸和编辑软件，支持图片和视频高质量换脸

FlashVideo - 字节联合港大推出的高分辨率视频生成框架

ACE++ - 阿里通义推出的升级版图像生成与编辑模型

LLaVA-Rad - 微软推出的小型多模态模型，专注于临床放射学报告生成

Satori - 开源的大语言推理模型，具备自回归搜索和自我纠错能力