AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

BlinkShot - 开源的实时AI图像生成器，几毫秒内生成高质量图像

BlinkShot是实时AI图像生成器，能迅速生成高质量的图像。用户只需输入提示，BlinkShot能在几毫秒内生成图像。工具基于Together AI的Flux Schnell技术，支持自...

AI Projects12/18/2025

NotebookLlama - Meta推出的PDF转播客内容的开源项目

NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现，用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...

AI Projects12/18/2025

WonderWorld - 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架，能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian ...

AI Projects12/18/2025

Meissonic - 阿里联合多所高校推出的文本到图像合成模型

Meissonic是由阿里巴巴集团、Skywork AI等多所大学合作推出的文本到图像合成模型。基于掩蔽图像建模技术，结合多模态和单模态Transformer层、高级位置编码策...

AI Projects12/18/2025

Zamba2-7B - Zyphra推出的小型语言模型

Zamba2-7B是Zyphra公司推出的小型语言模型，基于创新的架构在保持输出质量的同时实现快速的推理速度和低内存占用。模型在处理图像描述等任务时表现出色，适合...

AI Projects12/18/2025

PersonaTalk - 字节跳动推出的实现高保真和个性化视觉配音框架

PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架，用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时，...

AI Projects12/18/2025

OpenSPG - 蚂蚁联合OpenKG开源的知识图谱引擎

OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG框架的知识图谱引擎。OpenSPG融合LPG的结构性和RDF的语义性，克服RDF/OWL语义复杂难以落地的问题，继承LPG结构...

AI Projects12/18/2025

LongVU - Meta AI开源的长视频理解模型

LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型（LLM）上下文大小的挑战。LongVU基于跨模态查询和...

AI Projects12/18/2025

SynthID Text - 谷歌DeepMind推出的AI生成文本水印技术

SynthID Text 是谷歌DeepMind 推出的文本水印技术，用在识别和验证由大型语言模型（LLM）生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察...

AI Projects12/18/2025

VILA-U - 融合多模态理解和生成的统一基础模型

VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务，简化模型结构，在视觉语言理解和生成方面...

AI Projects12/18/2025

Video-XL - 智源联合多所高校推出的开源超长视觉理解模型

Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视...

AI Projects12/18/2025

Embed3 - Cohere推出的多模态AI搜索模型，支持动态更新机制

Embed3是Cohere公司推出的行业领先的多模态AI搜索模型，能从文本和图像生成嵌入向量，帮助企业快速准确地搜索复杂报告、产品目录和设计文件等多模态资产。Emb...

AI Projects12/18/2025

DriveDreamer4D - 基于世界模型增强4D驾驶场景重建效果的框架

DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架，基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频，用明确结...

AI Projects12/18/2025

Animate-X - 阿里巴巴开源的通用动画生成框架

Animate-X是基于LDM的通用动画框架，能将静态图像转化为动态视频，擅长处理拟人化角色。通过引入姿势指示器，增强了对运动模式的捕捉能力，包括隐式和显式运...

AI Projects12/18/2025

MarDini - Meta联合KAUST推出的视频生成扩散模型

MarDini是新型的视频扩散模型，融合掩码自回归（MAR）和扩散模型（DM）的优势，用在大规模视频生成。模型能处理任意数量和位置的掩码帧，支持视频插值、图像...

AI Projects12/18/2025

SDXL-EcomID - 阿里推出的单个参考图像生成定制的个性图像框架

SDXL-EcomID是阿里妈妈推出的开源项目，从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点，优化背景一致性、面部关键点控制和面部真实性，提高...

AI Projects12/18/2025

DreamClear - 中科院联合字节推出的高性能图像修复技术

DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术，专注于隐私安全的数据集管理，能将低质量（LQ）图像恢复为高质量（HQ）图像。

AI Projects12/18/2025

GitHub Spark - GitHub推出的AI编程工具，零代码开发应用

GitHub Spark是GitHub推出的AI编程工具，支持GPT-4o、Claude Sonnet 3.5等四款编程模型。用户无需任何代码和部署环境，基于自然语言描述需求，能在桌面或移动...

AI Projects12/18/2025

SimpleQA - OpenAI开源的新基准，用于评估前沿模型的事实准确性

SimpleQA是OpenAI推出的基准测试，用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题，每个问题设计为只有一个正确答案，易于评分”...

AI Projects12/18/2025

VtripGPT - 视旅科技推出首个旅游领域的AI大模型

VtripGPT是视旅科技推出的专注于旅游领域的AI大模型，基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构，结合旅游行业数据和常规知识进...

AI Projects12/18/2025

D-Edit - 基于图像、文本、掩码的多功能图像编辑框架

D-Edit是基于图像和文本的多功能图像编辑框架，基于预训练的扩散模型和独特的提示（prompts）实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像...

AI Projects12/18/2025

PromptFix - 微软开源的AI修图工具，通过提示词实现多种图像处理

PromptFix是微软开发的开源AI图像修复工具，基于扩散模型技术，能根据用户指令处理损坏的图片，移除不需要的元素。PromptFix支持多种图像处理任务，包括上色...

AI Projects12/18/2025

Show-o - 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模，能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展，混...

AI Projects12/18/2025

MimicTalk - 字节联合浙大推出的开源3D数字人头项目

MimicTalk是浙江大学和字节跳动共同研发推出的，基于NeRF（神经辐射场）技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。Mimi...

←1...48 49 50 51 52 53 54...137 →

AI News

AI Projects12/18/2025

BlinkShot - 开源的实时AI图像生成器，几毫秒内生成高质量图像

AI Projects12/18/2025

NotebookLlama - Meta推出的PDF转播客内容的开源项目

AI Projects12/18/2025

WonderWorld - 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

AI Projects12/18/2025

Meissonic - 阿里联合多所高校推出的文本到图像合成模型

AI Projects12/18/2025

Zamba2-7B - Zyphra推出的小型语言模型

AI Projects12/18/2025

PersonaTalk - 字节跳动推出的实现高保真和个性化视觉配音框架

AI Projects12/18/2025

OpenSPG - 蚂蚁联合OpenKG开源的知识图谱引擎

AI Projects12/18/2025

LongVU - Meta AI开源的长视频理解模型

AI Projects12/18/2025

SynthID Text - 谷歌DeepMind推出的AI生成文本水印技术

AI Projects12/18/2025

VILA-U - 融合多模态理解和生成的统一基础模型

AI Projects12/18/2025

Video-XL - 智源联合多所高校推出的开源超长视觉理解模型

AI Projects12/18/2025

Embed3 - Cohere推出的多模态AI搜索模型，支持动态更新机制

AI Projects12/18/2025

DriveDreamer4D - 基于世界模型增强4D驾驶场景重建效果的框架

AI Projects12/18/2025

Animate-X - 阿里巴巴开源的通用动画生成框架

AI Projects12/18/2025

MarDini - Meta联合KAUST推出的视频生成扩散模型

AI Projects12/18/2025

SDXL-EcomID - 阿里推出的单个参考图像生成定制的个性图像框架

AI Projects12/18/2025

DreamClear - 中科院联合字节推出的高性能图像修复技术

AI Projects12/18/2025

GitHub Spark - GitHub推出的AI编程工具，零代码开发应用

AI Projects12/18/2025

SimpleQA - OpenAI开源的新基准，用于评估前沿模型的事实准确性

AI Projects12/18/2025

VtripGPT - 视旅科技推出首个旅游领域的AI大模型

AI Projects12/18/2025

D-Edit - 基于图像、文本、掩码的多功能图像编辑框架

AI Projects12/18/2025

PromptFix - 微软开源的AI修图工具，通过提示词实现多种图像处理

AI Projects12/18/2025

Show-o - 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

AI Projects12/18/2025

All Categories

AI News

BlinkShot - 开源的实时AI图像生成器，几毫秒内生成高质量图像

NotebookLlama - Meta推出的PDF转播客内容的开源项目

WonderWorld - 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

Meissonic - 阿里联合多所高校推出的文本到图像合成模型

Zamba2-7B - Zyphra推出的小型语言模型

PersonaTalk - 字节跳动推出的实现高保真和个性化视觉配音框架

OpenSPG - 蚂蚁联合OpenKG开源的知识图谱引擎

LongVU - Meta AI开源的长视频理解模型

SynthID Text - 谷歌DeepMind推出的AI生成文本水印技术

VILA-U - 融合多模态理解和生成的统一基础模型

Video-XL - 智源联合多所高校推出的开源超长视觉理解模型

Embed3 - Cohere推出的多模态AI搜索模型，支持动态更新机制

DriveDreamer4D - 基于世界模型增强4D驾驶场景重建效果的框架

Animate-X - 阿里巴巴开源的通用动画生成框架

MarDini - Meta联合KAUST推出的视频生成扩散模型

SDXL-EcomID - 阿里推出的单个参考图像生成定制的个性图像框架

DreamClear - 中科院联合字节推出的高性能图像修复技术

GitHub Spark - GitHub推出的AI编程工具，零代码开发应用

SimpleQA - OpenAI开源的新基准，用于评估前沿模型的事实准确性

VtripGPT - 视旅科技推出首个旅游领域的AI大模型

D-Edit - 基于图像、文本、掩码的多功能图像编辑框架

PromptFix - 微软开源的AI修图工具，通过提示词实现多种图像处理

Show-o - 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

MimicTalk - 字节联合浙大推出的开源3D数字人头项目

AI News

BlinkShot - 开源的实时AI图像生成器，几毫秒内生成高质量图像

NotebookLlama - Meta推出的PDF转播客内容的开源项目

WonderWorld - 斯坦福和MIT联合推出的生成多样化连贯3D场景AI框架

Meissonic - 阿里联合多所高校推出的文本到图像合成模型

Zamba2-7B - Zyphra推出的小型语言模型

PersonaTalk - 字节跳动推出的实现高保真和个性化视觉配音框架

OpenSPG - 蚂蚁联合OpenKG开源的知识图谱引擎

LongVU - Meta AI开源的长视频理解模型

SynthID Text - 谷歌DeepMind推出的AI生成文本水印技术

VILA-U - 融合多模态理解和生成的统一基础模型

Video-XL - 智源联合多所高校推出的开源超长视觉理解模型

Embed3 - Cohere推出的多模态AI搜索模型，支持动态更新机制

DriveDreamer4D - 基于世界模型增强4D驾驶场景重建效果的框架

Animate-X - 阿里巴巴开源的通用动画生成框架

MarDini - Meta联合KAUST推出的视频生成扩散模型

SDXL-EcomID - 阿里推出的单个参考图像生成定制的个性图像框架

DreamClear - 中科院联合字节推出的高性能图像修复技术

GitHub Spark - GitHub推出的AI编程工具，零代码开发应用

SimpleQA - OpenAI开源的新基准，用于评估前沿模型的事实准确性

VtripGPT - 视旅科技推出首个旅游领域的AI大模型

D-Edit - 基于图像、文本、掩码的多功能图像编辑框架

PromptFix - 微软开源的AI修图工具，通过提示词实现多种图像处理

Show-o - 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型

MimicTalk - 字节联合浙大推出的开源3D数字人头项目