Qwen2-Audio - 阿里通义千问团队推出的开源AI语音模型
Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
Imagen 3是Google推出的AI图像生成模型,可以生成高质量、逼真的图像。Imagen 3对提示词理解更好,可捕捉更多细节,生成更广泛的视觉风格。基于谷歌的文生图...
EAFormer是复旦推出的AI文本分割框架。擅长在照片中找到文字,并且能很精确地把文字从背景中分离出来。即使文字的边缘很模糊或者背景很复杂,EAFormer也能做...
WiseFlow是开源的AI信息挖掘工具,能从网站、微信公众号、社交平台等多源信息中智能提取并分类数据。结合了统计学习和大型语言模型(LLM),支持多种新闻页面...
Agents是AIWaves公司推出的AI Agent开发工具,支持用户对AI模型进行详细调整和优化,构建更加智能和个性化的AI Agent。通过Agents平台,用户可以自定义AI模型...
MiniCPM-V是面壁智能推出的开源多模态大模型,拥有80亿参数,擅长图像和视频理解。MiniCPM-V在单图像理解上超越了GPT-4V等模型,并首次支持在iPad等设备上实...
VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画,实现与视频内容的无缝融合。通过预处理视频帧,系统提供平面...
CharacterFactory是大连理工大学IIAU团队推出的AI角色创作工具,通过扩散模型在无需参考图片的情况下,仅需2.5GB显存和10分钟训练,即可快速生成具有一致性特...
UniBench是Meta FAIR机构推出的视觉语言模型(VLM)评估框架,对视觉语言模型(VLM)进行全面评估。UniBench包含50多个基准测试,涵盖物体识别、空间理解、推理等...
Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术,让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型,通过识别图像中的...
EXAONE 3.0是LG AI Research推出的开源AI模型,具有7.8亿参数,专为英语和韩语设计。EXAONE 3.0在英语和韩语的语言测试中均表现优异,在真实用例和数学编码方...
DressCode是上海科技大学、宾夕法尼亚大学和Deemos科技联合推出的3D服装生成框架。支持用户通过文本描述来自动生成各种风格和材质的3D服装模型。
ReSyncer是清华大学和百度联合推出的AI视频编辑工具,通过音频驱动生成与声音同步的高质量嘴唇动作视频。ReSyncer用Style-SyncFormer分析声音并创建3D面部模...
MotionClone是文本驱动的AI视频动作克隆框架,通过时间注意力机制从参考视频中克隆动作,结合文本提示词生成新视频。能处理复杂的全局相机运动和精细的局部肢...
Mini-Monkey是华中科技大学和华南理工大学联合推出的轻量级多模态AI模型。采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效解决了传统图像切分...
MDT-A2G是复旦大学和腾讯优图联合推出的AI模型,专门用于根据语音内容同步生成相应的手势动作。MDT-A2G模仿人类在交流时自然产生的手势,计算机能更加生动和...
ASAM(Adversarial Adjustment of Segment Anything Model)是vivo公司推出的AI图像分割模型,通过对抗性调整来增强原有SAM模型的性能。ASAM用自然对抗性示例...
Falcon Mamba 7B是阿联酋技术创新研究所(TII)推出的开源AI大模型,性能超越了Meta的Llama 3.1-8B等模型。Falcon Mamba 7B采用编码器-解码器结构和多头注意...
Clapper 是一款免费开源的可视化AI视频编辑工具,由 HuggingFace 的AI前端工程师 Julian Bilcke 开发。集成多种生成式 AI 技术,用户通过交互式、迭代和直观...
UniTalker是推出的音频驱动3D面部动画生成模型,能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型,用带有不同标注的数据集,支持多语言和多种音...
Grok-2是xAI公司推出的新一代AI模型,提供卓越的聊天、编程和推理能力。在学术基准测试中,Grok-2在GPQA、MMLU、MMLU-Pro和MATH等领域的表现超越了前代Grok-1...
MagicPose是南加州大学和字节跳动联合研发的AI视频生成模型,无需任何微调,直接生成逼真的人类动作和面部表情视频。MagicPose通过一个新颖的两阶段训练策略...
Agent Q是MultiOn公司联合斯坦福大学推出的自监督代理推理和搜索框架。Agent Q融合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评和直接偏好优化(DPO)等技术...
UniPortrait是阿里巴巴推出的AI图像个性化编辑工具,能将照片转换为动漫风格,支持多人合照和换脸技术。UniPortrait通过先进的'ID嵌入'和'ID路由'技术,在多...