AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

Ovis1.6 - 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

Ovis1.6是阿里国际AI团队推出的多模态大模型，在多模态权威综合评测基准OpenCompass上取得了优异的成绩，特别是在30亿参数以下的模型中综合得分排名第一，超...

AI Projects12/18/2025

Gummy - 通义推出的端到端语音翻译大模型，能实时流式生成结果

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果，支持包括中文、英语、粤语、日语、韩语、法语、德...

AI Projects12/18/2025

cogvlm2-llama3-caption - 智普AI开源的视频标注模型，生成文本描述

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容，自动生成描述视频内容的文本标题或字幕。

AI Projects12/18/2025

书生·物华2.0（3DTopia 2.0）- 上海AI实验室联合南洋理工推出三维物体生成大模型

书生·物华2.0（3DTopia 2.0）是由上海人工智能实验室与南洋理工大学联合开发的三维物体生成大模型。模型采用创新的原语（primitive-based）三维表示方法PrimX...

AI Projects12/18/2025

StoryMaker - 小红书开源的文本到图像实现角色一致的生成模型

StoryMaker 是小红书开源的一款文本到图像生成工具，专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术，确保...

AI Projects12/18/2025

CogVideoX-Fun - 基于CogVideoX的整合包，支持生成无限长度的视频

CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包，提供了更自由的生成条件，支持文字生成视频、图片生成视频以及视频生成视频。工具...

AI Projects12/18/2025

ItiNera - 港大与MIT联合推出的AI城市行程规划（OUIP）系统

ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型（LLM）和空间优化技术，根据用户的个性化需求，如情侣酒吧、二次元圣地等，一键生成C...

AI Projects12/18/2025

华知大模型5.0 - 知网联合华为云推出的多模态AI大模型

华知大模型5.0是同方知网与华为云联合推出的AI大模型，具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力，涵盖从7B到135B不等的多...

AI Projects12/18/2025

LVCD - 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架

LVCD（Large Video Color Diffusion）是一个专为动画视频线稿上色设计的视频扩散框架，能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型，...

AI Projects12/18/2025

LLaMA-Omni - 中科院推出的低延迟高质量的语音交互模型

LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构，用于实现与大型语言模型（LLM）的低延迟、高质量语音交互。通过集成预训...

AI Projects12/18/2025

SCoRe - 谷歌DeepMind推出的多轮强化学习方法

SCoRe（Self-Correction via Reinforcement Learning）是谷歌DeepMind推出的一种创新的多轮强化学习方法，旨在提高大型语言模型（LLM）的自我纠错能力。通过...

AI Projects12/18/2025

AiNiee - AI翻译工具，游戏爱好者和小说迷的翻译神器

AiNiee 是一款AI翻译工具，能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件，接入多个主流AI接口平台，如OpenAI...

AI Projects12/18/2025

ANTO - 开源的Windows桌面字幕翻译工具

ANTO是一款开源的Windows桌面字幕翻译工具，用于翻译SRT格式的视频字幕文件。集成多种翻译引擎，如谷歌翻译、DeepL、微软翻译、百度翻译和有道翻译等，用户根...

AI Projects12/18/2025

OpenMusic - 基于 QA-MDT 的开源高质量文生音乐模型

OpenMusic 是一款基于 QA-MDT（Quality-aware Masked Diffusion Transformer）技术的高质量文生音乐模型。基于先进的AI算法，根据文本描述生成高质量的音乐作...

AI Projects12/18/2025

SFR-RAG - 专注于上下文理解和检索增强生成的语言模型

SFR-RAG是由Salesforce AI Research推出的一款大型语言模型，专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解，在检索增强生...

AI Projects12/18/2025

onewebot2 - 微信AI机器人一键运行包，双击exe直接使用

oneWebot2是一款微信AI机器人一键运行软件包，用户下载exe文件后，双击即可启动，无需复杂的Python环境配置。有图形化界面，简化配置流程，非技术用户轻松设...

AI Projects12/18/2025

GOT-OCR2.0 - 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型，推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成，能处理包括文本、...

AI Projects12/18/2025

豆包PixelDance - 字节跳动推出的AI视频生成大模型，基于DiT结构

豆包PixelDance是字节跳动最新推出的AI视频生成模型，采用DiT结构，支持文生视频和图生视频。它能理解复杂指令，生成长达10秒的连贯视频片段，涵盖多主体交互...

AI Projects12/18/2025

豆包Seaweed - 字节跳动推出的AI视频生成模型，基于Transformer结构

豆包Seaweed是字节跳动推出的AI视频生成模型，支持文生视频和图生视频两种模式。基于Transformer结构，利用时空压缩技术进行训练，原生支持多分辨率输出，适...

AI Projects12/18/2025

PortraitGen - 中科大推出的AI人像视频编辑工具

PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制，将2D人像视频转换为4D高斯场，实现高质量的3D...

AI Projects12/18/2025

MMMLU - OpenAI推出的多语言大规模多任务语言理解数据集

MMMLU（多语言大规模多任务语言理解）是由OpenAI推出的一个开源数据集，旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在...

AI Projects12/18/2025

Llama 3.2 - Meta推出的中小型视觉语言模型和轻量级文本模型

Llama 3.2是Meta公司最新推出的开源AI大模型系列，包括小型和中型视觉语言模型（11B和90B参数）以及轻量级纯文本模型（1B和3B参数）。Llama 3.2模型专为边缘...

AI Projects12/18/2025

MIMO - 阿里智能研究院推出的可控角色AI视频合成框架

MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的新型AI框架，基于空间分解建模技术，将2D视频转换为3D空间代码，实现对角色、动作和场景的精确控...

AI Projects12/18/2025

豆包AI视频模型 - 字节跳动推出的AI视频生成大模型：PixelDance和Seaweed

豆包AI视频模型是字节跳动推出的两款AI视频生成大模型：PixelDance 和 Seaweed 。PixelDance基于DiT结构，擅长理解复杂指令，生成连贯、多主体交互的视频片段...

←1...40 41 42 43 44 45 46...137 →

AI News

AI Projects12/18/2025

Ovis1.6 - 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

AI Projects12/18/2025

Gummy - 通义推出的端到端语音翻译大模型，能实时流式生成结果

AI Projects12/18/2025

cogvlm2-llama3-caption - 智普AI开源的视频标注模型，生成文本描述

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容，自动生成描述视频内容的文本标题或字幕。

AI Projects12/18/2025

书生·物华2.0（3DTopia 2.0）- 上海AI实验室联合南洋理工推出三维物体生成大模型

AI Projects12/18/2025

StoryMaker - 小红书开源的文本到图像实现角色一致的生成模型

AI Projects12/18/2025

CogVideoX-Fun - 基于CogVideoX的整合包，支持生成无限长度的视频

AI Projects12/18/2025

ItiNera - 港大与MIT联合推出的AI城市行程规划（OUIP）系统

AI Projects12/18/2025

华知大模型5.0 - 知网联合华为云推出的多模态AI大模型

AI Projects12/18/2025

LVCD - 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架

AI Projects12/18/2025

LLaMA-Omni - 中科院推出的低延迟高质量的语音交互模型

AI Projects12/18/2025

SCoRe - 谷歌DeepMind推出的多轮强化学习方法

SCoRe（Self-Correction via Reinforcement Learning）是谷歌DeepMind推出的一种创新的多轮强化学习方法，旨在提高大型语言模型（LLM）的自我纠错能力。通过...

AI Projects12/18/2025

AiNiee - AI翻译工具，游戏爱好者和小说迷的翻译神器

AI Projects12/18/2025

ANTO - 开源的Windows桌面字幕翻译工具

AI Projects12/18/2025

OpenMusic - 基于 QA-MDT 的开源高质量文生音乐模型

OpenMusic 是一款基于 QA-MDT（Quality-aware Masked Diffusion Transformer）技术的高质量文生音乐模型。基于先进的AI算法，根据文本描述生成高质量的音乐作...

AI Projects12/18/2025

SFR-RAG - 专注于上下文理解和检索增强生成的语言模型

AI Projects12/18/2025

onewebot2 - 微信AI机器人一键运行包，双击exe直接使用

AI Projects12/18/2025

GOT-OCR2.0 - 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

AI Projects12/18/2025

豆包PixelDance - 字节跳动推出的AI视频生成大模型，基于DiT结构

AI Projects12/18/2025

豆包Seaweed - 字节跳动推出的AI视频生成模型，基于Transformer结构

AI Projects12/18/2025

PortraitGen - 中科大推出的AI人像视频编辑工具

AI Projects12/18/2025

MMMLU - OpenAI推出的多语言大规模多任务语言理解数据集

AI Projects12/18/2025

Llama 3.2 - Meta推出的中小型视觉语言模型和轻量级文本模型

AI Projects12/18/2025

MIMO - 阿里智能研究院推出的可控角色AI视频合成框架

AI Projects12/18/2025

All Categories

AI News

Ovis1.6 - 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

Gummy - 通义推出的端到端语音翻译大模型，能实时流式生成结果

cogvlm2-llama3-caption - 智普AI开源的视频标注模型，生成文本描述

书生·物华2.0（3DTopia 2.0）- 上海AI实验室联合南洋理工推出三维物体生成大模型

StoryMaker - 小红书开源的文本到图像实现角色一致的生成模型

CogVideoX-Fun - 基于CogVideoX的整合包，支持生成无限长度的视频

ItiNera - 港大与MIT联合推出的AI城市行程规划（OUIP）系统

华知大模型5.0 - 知网联合华为云推出的多模态AI大模型

LVCD - 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架

LLaMA-Omni - 中科院推出的低延迟高质量的语音交互模型

SCoRe - 谷歌DeepMind推出的多轮强化学习方法

AiNiee - AI翻译工具，游戏爱好者和小说迷的翻译神器

ANTO - 开源的Windows桌面字幕翻译工具

OpenMusic - 基于 QA-MDT 的开源高质量文生音乐模型

SFR-RAG - 专注于上下文理解和检索增强生成的语言模型

onewebot2 - 微信AI机器人一键运行包，双击exe直接使用

GOT-OCR2.0 - 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

豆包PixelDance - 字节跳动推出的AI视频生成大模型，基于DiT结构

豆包Seaweed - 字节跳动推出的AI视频生成模型，基于Transformer结构

PortraitGen - 中科大推出的AI人像视频编辑工具

MMMLU - OpenAI推出的多语言大规模多任务语言理解数据集

Llama 3.2 - Meta推出的中小型视觉语言模型和轻量级文本模型

MIMO - 阿里智能研究院推出的可控角色AI视频合成框架

豆包AI视频模型 - 字节跳动推出的AI视频生成大模型：PixelDance和Seaweed

AI News

Ovis1.6 - 阿里国际AI团队推出的多模态大模型，超过闭源GPT-4o-mini

Gummy - 通义推出的端到端语音翻译大模型，能实时流式生成结果

cogvlm2-llama3-caption - 智普AI开源的视频标注模型，生成文本描述

书生·物华2.0（3DTopia 2.0）- 上海AI实验室联合南洋理工推出三维物体生成大模型

StoryMaker - 小红书开源的文本到图像实现角色一致的生成模型

CogVideoX-Fun - 基于CogVideoX的整合包，支持生成无限长度的视频

ItiNera - 港大与MIT联合推出的AI城市行程规划（OUIP）系统

华知大模型5.0 - 知网联合华为云推出的多模态AI大模型

LVCD - 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架

LLaMA-Omni - 中科院推出的低延迟高质量的语音交互模型

SCoRe - 谷歌DeepMind推出的多轮强化学习方法

AiNiee - AI翻译工具，游戏爱好者和小说迷的翻译神器

ANTO - 开源的Windows桌面字幕翻译工具

OpenMusic - 基于 QA-MDT 的开源高质量文生音乐模型

SFR-RAG - 专注于上下文理解和检索增强生成的语言模型

onewebot2 - 微信AI机器人一键运行包，双击exe直接使用

GOT-OCR2.0 - 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

豆包PixelDance - 字节跳动推出的AI视频生成大模型，基于DiT结构

豆包Seaweed - 字节跳动推出的AI视频生成模型，基于Transformer结构

PortraitGen - 中科大推出的AI人像视频编辑工具

MMMLU - OpenAI推出的多语言大规模多任务语言理解数据集

Llama 3.2 - Meta推出的中小型视觉语言模型和轻量级文本模型

MIMO - 阿里智能研究院推出的可控角色AI视频合成框架

豆包AI视频模型 - 字节跳动推出的AI视频生成大模型：PixelDance和Seaweed