AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

360gpt2-o1 - 360 推出国产自研 AI 大模型，多项评测优于GPT-4o

360gpt2-o1 是 360 自研的 AI 大模型，在推理能力上有显著提升，特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实...

AI Projects12/18/2025

POINTS 1.5 - 腾讯微信推出的多模态大模型

POINTS 1.5 是腾讯微信发布的多模态大模型，是POINTS 1.0的升级版本。模型继续沿用了POINTS 1.0中的LLaVA架构，由一个视觉编码器、一个投影器和一个大型语言...

AI Projects12/18/2025

k1 视觉思考模型 - kimi推出的 k1 系列强化学习模型

k1 视觉思考模型是kimi推出的k1系列强化学习AI模型，原生支持端到端图像理解和思维链技术，将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学...

AI Projects12/18/2025

FreeScale - 无需微调的推理框架，提升扩散模型生成能力首次实现8K分辨率图像

FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架，提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和融合不同...

AI Projects12/18/2025

Freestyler - 西工大联合微软和香港大学推出的说唱乐生成模型

Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组（ASLP@NPU）、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型，能直...

AI Projects12/18/2025

SnapGen - Snap联合港科大等机构推出的移动端文生图模型

SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像（T2I）扩散模型，能在移动设备上快速生成高分辨率（1024x1024像素）的图像，且只需...

AI Projects12/18/2025

CosyVoice - 阿里开源的语音生成大模型

CosyVoice 是阿里通义实验室开源的自然语音合成大模型。模型支持中文、英文、日文、粤语、韩语五种语言，仅需3到10秒音频样本就能复刻相似音色，包括语调和情...

AI Projects12/18/2025

Megrez-3B-Omni - 无问芯穹开源的端侧全模态理解模型

Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型，能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型...

AI Projects12/18/2025

Veo 2 - 谷歌 DeepMind 推出的 AI 视频生成模型，支持高达 4K 分辨率

Veo 2 是 Google DeepMind 推出的 AI 视频生成模型，能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作，理解镜头控制指令，能模...

AI Projects12/18/2025

RDT - 清华开源的双臂机器人扩散基础模型

RDT（Robotics Diffusion Transformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能在无需人类操控...

AI Projects12/18/2025

Apollo - Meta 联合斯坦福大学推出的大型多模态模型

Apollo是Meta和斯坦福大学合作推出的大型多模态模型（LMMs），专注于视频理解。Apollo基于系统研究，揭示视频理解在LMMs中的关键驱动因素，推出“Scaling Cons...

AI Projects12/18/2025

BrushEdit - 腾讯和北大等联合推出的图像编辑框架，指令引导图像编辑和修复

BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架，是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型（MLLMs）和双分支图像修复模型，...

AI Projects12/18/2025

Bocha Semantic Reranker - 博查推出的语义排序模型

Bocha Semantic Reranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义，对初步排序的...

AI Projects12/18/2025

Ruyi - 图森未来推出的图生视频大模型

Ruyi是图森未来科技有限公司推出的图生视频大模型，专为在消费级显卡上运行设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头...

AI Projects12/18/2025

Large Action Models - 微软推出的行动大模型开发框架

Large Action Models（LAMs）是微软推出大型行动模型的开发框架，能执行真实世界行动的智能系统，LAMs超越传统LLMs（Large Language Models，大型语言模型）...

AI Projects12/18/2025

Leffa - Meta 开源的图像生成框架，精确控制人物的外观和姿势

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa...

AI Projects12/18/2025

LatentLM - 微软联合清华推出的多模态生成模型

LatentLM是微软研究院和清华大学共同推出的多模态生成模型，能统一处理离散数据（如文本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续数据...

AI Projects12/18/2025

Lyra - SmartMore联合多所高校推出的增强多模态交互能力

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型（MLLM），专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多...

AI Projects12/18/2025

Manga Image Translator - 开源漫画图片文字翻译工具，多语言翻译无缝嵌入原图

Manga Image Translator是开源的漫画图片文字翻译工具，能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本，结合机器翻译将文字转换...

AI Projects12/18/2025

Ivy-VL - AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型，专为移动端和边缘设备设计。模型拥有3B参数量，相较于其他多模态大模型，显...

AI Projects12/18/2025

ColorFlow - 清华和腾讯共同推出的图像序列着色模型

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技...

AI Projects12/18/2025

NodeTool - AI工作流可视化构建器，拖放节点设计复杂工作流

NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型，基于简单、可视化的界面，让用户无需编码即可快速原型设计和测试。NodeTool支持在...

AI Projects12/18/2025

VMB - 中科院联合多所高校机构推出增强多模态音乐生成的框架

VMB（Visuals Music Bridge）是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框...

AI Projects12/18/2025

豆包视觉理解模型 - 豆包推出视觉理解模型，具备识别和推理能力

豆包视觉理解模型是豆包推出的先进AI大模型，具备视觉识别和理解推理能力。豆包视觉理解模型具备强大的视觉定位能力，支持多目标、小目标及通用目标的框定位...

←1...62 63 64 65 66 67 68...137 →

AI News

AI Projects12/18/2025

All Categories

AI News

360gpt2-o1 - 360 推出国产自研 AI 大模型，多项评测优于GPT-4o

POINTS 1.5 - 腾讯微信推出的多模态大模型

k1 视觉思考模型 - kimi推出的 k1 系列强化学习模型

FreeScale - 无需微调的推理框架，提升扩散模型生成能力首次实现8K分辨率图像

Freestyler - 西工大联合微软和香港大学推出的说唱乐生成模型

SnapGen - Snap联合港科大等机构推出的移动端文生图模型

CosyVoice - 阿里开源的语音生成大模型

Megrez-3B-Omni - 无问芯穹开源的端侧全模态理解模型

Veo 2 - 谷歌 DeepMind 推出的 AI 视频生成模型，支持高达 4K 分辨率

RDT - 清华开源的双臂机器人扩散基础模型

Apollo - Meta 联合斯坦福大学推出的大型多模态模型

BrushEdit - 腾讯和北大等联合推出的图像编辑框架，指令引导图像编辑和修复

Bocha Semantic Reranker - 博查推出的语义排序模型

Ruyi - 图森未来推出的图生视频大模型

Large Action Models - 微软推出的行动大模型开发框架

Leffa - Meta 开源的图像生成框架，精确控制人物的外观和姿势

LatentLM - 微软联合清华推出的多模态生成模型

Lyra - SmartMore联合多所高校推出的增强多模态交互能力

Manga Image Translator - 开源漫画图片文字翻译工具，多语言翻译无缝嵌入原图

Ivy-VL - AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

ColorFlow - 清华和腾讯共同推出的图像序列着色模型

NodeTool - AI工作流可视化构建器，拖放节点设计复杂工作流

VMB - 中科院联合多所高校机构推出增强多模态音乐生成的框架

豆包视觉理解模型 - 豆包推出视觉理解模型，具备识别和推理能力

AI News

360gpt2-o1 - 360 推出国产自研 AI 大模型，多项评测优于GPT-4o

POINTS 1.5 - 腾讯微信推出的多模态大模型

k1 视觉思考模型 - kimi推出的 k1 系列强化学习模型

FreeScale - 无需微调的推理框架，提升扩散模型生成能力首次实现8K分辨率图像

Freestyler - 西工大联合微软和香港大学推出的说唱乐生成模型

SnapGen - Snap联合港科大等机构推出的移动端文生图模型

CosyVoice - 阿里开源的语音生成大模型

Megrez-3B-Omni - 无问芯穹开源的端侧全模态理解模型

Veo 2 - 谷歌 DeepMind 推出的 AI 视频生成模型，支持高达 4K 分辨率

RDT - 清华开源的双臂机器人扩散基础模型

Apollo - Meta 联合斯坦福大学推出的大型多模态模型

BrushEdit - 腾讯和北大等联合推出的图像编辑框架，指令引导图像编辑和修复

Bocha Semantic Reranker - 博查推出的语义排序模型

Ruyi - 图森未来推出的图生视频大模型

Large Action Models - 微软推出的行动大模型开发框架

Leffa - Meta 开源的图像生成框架，精确控制人物的外观和姿势

LatentLM - 微软联合清华推出的多模态生成模型

Lyra - SmartMore联合多所高校推出的增强多模态交互能力

Manga Image Translator - 开源漫画图片文字翻译工具，多语言翻译无缝嵌入原图

Ivy-VL - AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

ColorFlow - 清华和腾讯共同推出的图像序列着色模型

NodeTool - AI工作流可视化构建器，拖放节点设计复杂工作流

VMB - 中科院联合多所高校机构推出增强多模态音乐生成的框架

豆包视觉理解模型 - 豆包推出视觉理解模型，具备识别和推理能力