Whisper Input - 开源AI语音输入工具,支持多语言实时转录和翻译
Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开始录音,松开结束录音),实现...
Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开始录音,松开结束录音),实现...
Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过程中处理1000多张图像,实现高效且可扩展的3D重...
Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升...
VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 SigLip)和强大的语言生成能力,...
Baichuan-Omni-1.5 是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态流式...
TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思考范式,...
Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下...
DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和弱条件,有助于减少...
Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模...
Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,分析图像中的文本、图表...
QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多模态理解和推理任务上展现了强大...
Qwen2.5-Max是阿里云推出的超大规模MoE(Mixture of Experts)模型,使用超过20万亿tokens的预训练数据。模型在多个基准测试中表现卓越,超越了DeepSeek V3、...
MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散模型,Qualcomm AI Research团队开发。模型基于Stable Video Diffusion(SVD)的时空UN...
YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐风格,包括流行、金属、爵士...
VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在LLaVA架构...
CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态物体(如车辆)与静态场景(如建筑和道路)分离,通过三个模块—...
SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度...
LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领域规范、标准...
Aligner是北京大学团队提出的大语言模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型,在问题-答案-修...
OpenAI o3-mini是OpenAI正式发布的全新推理模型。是OpenAI推理系列中最新、成本效益最高的模型,专为科学、数学和编程等技术领域优化。支持三种推理强度(低...
EICopilot是百度研究院推出的基于AI智能体的企业信息搜索与探索工具。通过大型语言模型(LLM)驱动的智能体,帮助企业用户在大规模知识图谱中高效检索和解读...
Mistral Small 3 是 Mistral AI 发布的开源大型语言模型,有240亿参数,基于 Apache 2.0 许可证开源。专为低延迟任务设计,支持多语言(包括英语、中文、日语...
CoA(Chain-of-Agents)是谷歌推出的多智能体协作框架,用于解决大语言模型(LLM)在处理长文本任务时面临的上下文限制问题。CoA框架将长文本分割成多个较短...
Oumi 是完全开源的 AI 平台,简化从数据准备、模型训练到评估和部署的整个生命周期。支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型(如 Lla...