UniBench是Meta FAIR机构推出的视觉语言模型(VLM)评估框架,对视觉语言模型(VLM)进行全面评估。UniBench包含50多个基准测试,涵盖物体识别、空间理解、推理等...
UniBench是Meta FAIR机构推出的视觉语言模型(VLM)评估框架,对视觉语言模型(VLM)进行全面评估。UniBench包含50多个基准测试,涵盖物体识别、空间理解、推理等...
Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术,让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型,通过识别图像中的...
EXAONE 3.0是LG AI Research推出的开源AI模型,具有7.8亿参数,专为英语和韩语设计。EXAONE 3.0在英语和韩语的语言测试中均表现优异,在真实用例和数学编码方...
DressCode是上海科技大学、宾夕法尼亚大学和Deemos科技联合推出的3D服装生成框架。支持用户通过文本描述来自动生成各种风格和材质的3D服装模型。
ReSyncer是清华大学和百度联合推出的AI视频编辑工具,通过音频驱动生成与声音同步的高质量嘴唇动作视频。ReSyncer用Style-SyncFormer分析声音并创建3D面部模...
MotionClone是文本驱动的AI视频动作克隆框架,通过时间注意力机制从参考视频中克隆动作,结合文本提示词生成新视频。能处理复杂的全局相机运动和精细的局部肢...
Mini-Monkey是华中科技大学和华南理工大学联合推出的轻量级多模态AI模型。采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分...
MDT-A2G是复旦大学和腾讯优图联合推出的AI模型,专门用于根据语音内容同步生成相应的手势动作。MDT-A2G模仿人类在交流时自然产生的手势,计算机能更加生动和...
ASAM(Adversarial Adjustment of Segment Anything Model)是vivo公司推出的AI图像分割模型,通过对抗性调整来增强原有SAM模型的性能。ASAM用自然对抗性示例...
Falcon Mamba 7B是阿联酋技术创新研究所(TII)推出的开源AI大模型,性能超越了Meta的Llama 3.1-8B等模型。Falcon Mamba 7B采用编码器-解码器结构和多头注意...
Clapper 是一款免费开源的可视化AI视频编辑工具,由 HuggingFace 的AI前端工程师 Julian Bilcke 开发。集成多种生成式 AI 技术,用户通过交互式、迭代和直观...
UniTalker是推出的音频驱动3D面部动画生成模型,能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型,用带有不同标注的数据集,支持多语言和多种音...
Grok-2是xAI公司推出的新一代AI模型,提供卓越的聊天、编程和推理能力。在学术基准测试中,Grok-2在GPQA、MMLU、MMLU-Pro和MATH等领域的表现超越了前代Grok-1...
MagicPose是南加州大学和字节跳动联合研发的AI视频生成模型,无需任何微调,直接生成逼真的人类动作和面部表情视频。MagicPose通过一个新颖的两阶段训练策略...
Agent Q是MultiOn公司联合斯坦福大学推出的自监督代理推理和搜索框架。Agent Q融合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评和直接偏好优化(DPO)等技术...
UniPortrait是阿里巴巴推出的AI图像个性化编辑工具,能将照片转换为动漫风格,支持多人合照和换脸技术。UniPortrait通过先进的'ID嵌入'和'ID路由'技术,在多...
LabelU 是一款开源的多模态数据标注工具,支持图像、视频和音频的标注,具备拉框、多边形、标点、标线、分类、描述等图像标注能力,能满足目标检测、图像分类...
Buzz是一款基于OpenAI Whisper模型构建的离线语音转文字工具,适用于Windows、macOS和Linux系统。Buzz能将麦克风输入或音频、视频文件实时转换为文字,支持多...
HoloDreamer是北京大学联合鹏城实验室推出的AI文本驱动3D场景生成框架。通过两个核心模块:风格化全景图生成和增强两阶段全景图重建,从文本描述中快速生成沉...
HumanVid是香港中文大学和上海人工智能实验室共同推出的高质量数据集,专为人类图像动画训练设计。结合了现实世界视频和合成数据,通过精心设计的规则筛选高...
ORMBG是开源的AI图像分割工具,由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景,用先进的图像处理技术,实现对图像中前景和背景的精...
Cradle是面向通用计算机控制(General Computer Control, GCC)的多模态AI Agent框架,由昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学...
Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge...
VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了...