AI News

All News Tutorials Wiki AI Projects AI Apps

AI Projects12/18/2025

豆包3D生成模型 - 豆包推出3D生成模型，自然语言交互实时生成3D场景图

豆包3D生成模型是豆包推出的3D生成模型，属于豆包大模型家族。模型基于3D-DiT 架构，能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用，...

AI Projects12/18/2025

MV-Adapter - 北航联合 VAST 等开源的多视图一致图像生成模型

MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图...

AI Projects12/18/2025

FACTS Grounding - 谷歌推出的评估大模型能力的基准测试

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型（LLMs）能力的基准测试，衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Ground...

AI Projects12/18/2025

MarkItDown - 微软开源的多功能、多格式文档转Markdown工具

MarkItDown是微软开源的多功能文档处理工具，能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文...

AI Projects12/18/2025

EMMA-X - 新加坡科技设计大学推出的具身多模态动作模型

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型，在有根据的链式思维（CoT）推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集...

AI Projects12/18/2025

WeaveFox - 蚂蚁推出的AI前端研发平台

WeaveFox 是蚂蚁集团推出的 AI 前端智能研发平台，为开发者和创作者提供了全新的生产力工具。核心功能是将设计图快速转换为高质量的前端代码，支持多种设计文...

AI Projects12/18/2025

UniReal - 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架，专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态，能在单一模型中处理包括图像...

AI Projects12/18/2025

X-AnyLabeling - AI图像标注工具，支持图像和视频多样化标注样式

X-AnyLabeling是集成多种深度学习算法的图像标注软件，专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式，适配多种AI训练场景，提供...

AI Projects12/18/2025

Explorer - AI 3D世界生成模型，文本图像秒变3D渲染场景

Explorer是Odyssey公司推出的生成性世界模型，能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界，且支持动态效果的生成。Explorer基于高斯溅...

AI Projects12/18/2025

Gemini 2.0 Flash Thinking - 谷歌推出的最新推理模型，支持百万上下文展示思考路径

Gemini 2.0 Flash Thinking 是谷歌最新发布的推理增强型 AI 模型，专为复杂问题的高效推理和可解释性设计。在 Chatbot Arena 排行榜上表现卓越，超越了前代模...

AI Projects12/18/2025

Genesis - CMU 联合 20 多所研究机构开源的生成式物理引擎

Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎，能模拟世界万物。Genesis能用简单的语言描述，快...

AI Projects12/18/2025

AniDoc - 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画，遵循参考...

AI Projects12/18/2025

ElevenLabs Flash - ElevenLabs推出的低延迟语音合成模型

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型，专为快速对话型AI设计。ElevenLabs Flash有两个版本：Flash v2仅支持英语，Flash v2.5支持32种语言...

AI Projects12/18/2025

OpenAI o3 - OpenAI推出的新一代最强推理模型

OpenAI o3模型是继o1之后的新一代推理模型，是 OpenAI 首次将图像推理融入思维链的模型，能直接在思维链中思考图像。用户可以上传模糊、颠倒或低质量的图像，...

AI Projects12/18/2025

StyleStudio - 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学（广州）联合推出的，文本驱动的风格迁移模型，能将参考图像的风格与文本提示的内容融...

AI Projects12/18/2025

RWKV-7 - RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵活的状态演化能力，能在相同算力消耗下解决attention无法解...

AI Projects12/18/2025

PromptWizard - 微软开源的 AI 提示词自动化优化框架

PromptWizard是微软推出的自动化提示优化框架，改进大型语言模型（LLMs）在特定任务中的表现。基于自我演变和自我适应机制，PromptWizard用反馈驱动的批评和...

AI Projects12/18/2025

INFP - 音频驱动的生成逼真面部表情和头部姿态的AI框架

INFP是音频驱动的头部生成框架，专为双人对话交互设计。能自动在对话音频引导下进行角色的转换，无需手动分配角色和角色切换。INFP包括两个阶段：基于动作头...

AI Projects12/18/2025

VisionFM - 通用眼科AI大模型，具备少样本多种疾病诊断能力

VisionFM（伏羲慧眼）是多模态多任务的视觉基础模型，专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像，覆盖广泛的眼科疾病、...

AI Projects12/18/2025

MetaMorph - 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

MetaMorph是多模态大模型（MLLM），通过指令微调（Instruction Tuning）实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning（VPiT）...

AI Projects12/18/2025

AgentScope - 阿里开源的多智能体开发平台

AgentScope是阿里巴巴集团开源的多智能体开发平台，帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持，内置多种模型API...

AI Projects12/18/2025

LeviTor - 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviT...

AI Projects12/18/2025

3D-Speaker - 阿里通义推出的多模态说话人识别任务开源项目

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模...

AI Projects12/18/2025

ERA-42 - 星动纪元推出的端到端原生机器人大模型

ERA-42是北京星动纪元推出的端到端原生机器人大模型，与自研的五指灵巧手星动XHAND1结合，能完成100多种复杂灵巧操作任务。ERA-42无需预编程，具备快速学习新...

←1...63 64 65 66 67 68 69...137 →

AI News

AI Projects12/18/2025

豆包3D生成模型 - 豆包推出3D生成模型，自然语言交互实时生成3D场景图

AI Projects12/18/2025

MV-Adapter - 北航联合 VAST 等开源的多视图一致图像生成模型

AI Projects12/18/2025

FACTS Grounding - 谷歌推出的评估大模型能力的基准测试

AI Projects12/18/2025

MarkItDown - 微软开源的多功能、多格式文档转Markdown工具

AI Projects12/18/2025

EMMA-X - 新加坡科技设计大学推出的具身多模态动作模型

AI Projects12/18/2025

WeaveFox - 蚂蚁推出的AI前端研发平台

AI Projects12/18/2025

UniReal - 港大联合 Adobe 推出的通用图像生成和编辑框架

AI Projects12/18/2025

X-AnyLabeling - AI图像标注工具，支持图像和视频多样化标注样式

AI Projects12/18/2025

Explorer - AI 3D世界生成模型，文本图像秒变3D渲染场景

AI Projects12/18/2025

Gemini 2.0 Flash Thinking - 谷歌推出的最新推理模型，支持百万上下文展示思考路径

AI Projects12/18/2025

Genesis - CMU 联合 20 多所研究机构开源的生成式物理引擎

AI Projects12/18/2025

AniDoc - 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

AI Projects12/18/2025

ElevenLabs Flash - ElevenLabs推出的低延迟语音合成模型

ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型，专为快速对话型AI设计。ElevenLabs Flash有两个版本：Flash v2仅支持英语，Flash v2.5支持32种语言...

AI Projects12/18/2025

OpenAI o3 - OpenAI推出的新一代最强推理模型

AI Projects12/18/2025

StyleStudio - 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

AI Projects12/18/2025

RWKV-7 - RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的attention和linear attention范式，具有更灵活的状态演化能力，能在相同算力消耗下解决attention无法解...

AI Projects12/18/2025

PromptWizard - 微软开源的 AI 提示词自动化优化框架

AI Projects12/18/2025

INFP - 音频驱动的生成逼真面部表情和头部姿态的AI框架

AI Projects12/18/2025

VisionFM - 通用眼科AI大模型，具备少样本多种疾病诊断能力

AI Projects12/18/2025

MetaMorph - 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

MetaMorph是多模态大模型（MLLM），通过指令微调（Instruction Tuning）实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning（VPiT）...

AI Projects12/18/2025

AgentScope - 阿里开源的多智能体开发平台

AI Projects12/18/2025

LeviTor - 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

AI Projects12/18/2025

3D-Speaker - 阿里通义推出的多模态说话人识别任务开源项目

AI Projects12/18/2025

All Categories

AI News

豆包3D生成模型 - 豆包推出3D生成模型，自然语言交互实时生成3D场景图

MV-Adapter - 北航联合 VAST 等开源的多视图一致图像生成模型

FACTS Grounding - 谷歌推出的评估大模型能力的基准测试

MarkItDown - 微软开源的多功能、多格式文档转Markdown工具

EMMA-X - 新加坡科技设计大学推出的具身多模态动作模型

WeaveFox - 蚂蚁推出的AI前端研发平台

UniReal - 港大联合 Adobe 推出的通用图像生成和编辑框架

X-AnyLabeling - AI图像标注工具，支持图像和视频多样化标注样式

Explorer - AI 3D世界生成模型，文本图像秒变3D渲染场景

Gemini 2.0 Flash Thinking - 谷歌推出的最新推理模型，支持百万上下文展示思考路径

Genesis - CMU 联合 20 多所研究机构开源的生成式物理引擎

AniDoc - 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

ElevenLabs Flash - ElevenLabs推出的低延迟语音合成模型

OpenAI o3 - OpenAI推出的新一代最强推理模型

StyleStudio - 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

RWKV-7 - RWKV系列的最新大模型架构版本，有强大的上下文学习能力

PromptWizard - 微软开源的 AI 提示词自动化优化框架

INFP - 音频驱动的生成逼真面部表情和头部姿态的AI框架

VisionFM - 通用眼科AI大模型，具备少样本多种疾病诊断能力

MetaMorph - 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

AgentScope - 阿里开源的多智能体开发平台

LeviTor - 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

3D-Speaker - 阿里通义推出的多模态说话人识别任务开源项目

ERA-42 - 星动纪元推出的端到端原生机器人大模型

AI News

豆包3D生成模型 - 豆包推出3D生成模型，自然语言交互实时生成3D场景图

MV-Adapter - 北航联合 VAST 等开源的多视图一致图像生成模型

FACTS Grounding - 谷歌推出的评估大模型能力的基准测试

MarkItDown - 微软开源的多功能、多格式文档转Markdown工具

EMMA-X - 新加坡科技设计大学推出的具身多模态动作模型

WeaveFox - 蚂蚁推出的AI前端研发平台

UniReal - 港大联合 Adobe 推出的通用图像生成和编辑框架

X-AnyLabeling - AI图像标注工具，支持图像和视频多样化标注样式

Explorer - AI 3D世界生成模型，文本图像秒变3D渲染场景

Gemini 2.0 Flash Thinking - 谷歌推出的最新推理模型，支持百万上下文展示思考路径

Genesis - CMU 联合 20 多所研究机构开源的生成式物理引擎

AniDoc - 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

ElevenLabs Flash - ElevenLabs推出的低延迟语音合成模型

OpenAI o3 - OpenAI推出的新一代最强推理模型

StyleStudio - 文本驱动的风格迁移模型，能将参考图像的风格与文本提示内容融合

RWKV-7 - RWKV系列的最新大模型架构版本，有强大的上下文学习能力

PromptWizard - 微软开源的 AI 提示词自动化优化框架

INFP - 音频驱动的生成逼真面部表情和头部姿态的AI框架

VisionFM - 通用眼科AI大模型，具备少样本多种疾病诊断能力

MetaMorph - 统一多模态理解与生成大模型，基于VPiT 预测多模态 token

AgentScope - 阿里开源的多智能体开发平台

LeviTor - 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

3D-Speaker - 阿里通义推出的多模态说话人识别任务开源项目

ERA-42 - 星动纪元推出的端到端原生机器人大模型