Ferret-UI 2 - 苹果推出的跨平台UI理解多模态大语言模型
Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,...
Ferret-UI 2是苹果公司推出的多模态大型语言模型,用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素,执行复杂的用户指令,...
MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...
MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制...
MotionCLR是基于注意力机制的人体动作生成和编辑模型,能根据文本提示生成动作,支持用户进行交互式编辑,如动作强调、减弱、替换、擦除和风格转移。MotionCL...
DocMind是司马阅推出的文档智能大模型,基于Transformer结构,融合深度学习、NLP和CV技术,能处理富文本文档的复杂结构和视觉信息,提高信息抽取准确性。DocM...
DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型,能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性...
Hunyuan3D-1.0 是腾讯推出的一款3D生成模型,具备文本和图像输入条件,支持高质量的3D资产生成。该模型采用两阶段方法,首先使用多视角扩散模型生成多视角RGB...
Hunyuan-Large是腾讯推出的大型混合专家(MoE)模型,具有3890亿总参数量和520亿激活参数量,是目前业界参数规模最大的开源MoE模型。基于Transformer架构,支...
Cofounder是开源的全栈AI开发代理,能帮助开发者基于单一提示自动生成完整的应用程序,包括后端、前端、数据库和有状态的Web应用。Cofounder基于生成式AI技术...
MagicTailor 是专门为组件可控个性化设计的新框架,让T2I模型在个性化过程中能够精确控制。MagicTailor 基于两个关键技术动态掩码退化(DM-Deg)和双流平衡(...
Claude Computer Use是Anthropic公司为Claude 3.5 Sonnet和Claude 3.5 Haiku模型推出的新功能,支持AI模型Claude执行类似人类的电脑操作,如查看屏幕、移动光...
Docling是开源的文档解析和转换工具,能高效地将多种格式的文档(包括PDF、DOCX、PPTX、图片和HTML)解析,导出为Markdown或JSON格式。Docling支持高级PDF理...
Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver构建的浏览器AI智能助手,能理解任务意图、执行网页自动化任务,如数据抓取和网站自动化测试。Cerebe...
WebRL是清华大学、智谱AI联合推出的自我进化的在线课程强化学习框架,训练使用开放大型语言模型(LLMs)的高性能网络代理。WebRL动态生成任务、结果监督奖励...
GameGen-X是香港科技大学、中国科学技术大学等机构研究人员推出的扩散变换器模型,用在生成和交互控制开放世界游戏视频。模型能模拟游戏引擎功能,如创新角色...
OuteTTS是开源的文本到语音(TTS)项目,基于纯语言建模的方法生成语音。OuteTTS项目基于LLaMa架构,用Oute3-350M-DEV基础模型,拥有3.5亿参数。OuteTTS具备...
GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。G...
VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一...
AndroidLab是用在训练和系统评估Android自主代理的框架,集成文本和图像模态操作环境,统一行动空间和可重现基准测试。AndroidLab支持大型语言模型和多模态模...
Recraft V3是Recraft公司推出的AI文本到图像生成模型,在Hugging Face的文本到图像模型排行榜上以1172的ELO评分荣获第一。模型具有高质量的图像生成和先进的...
Magentic-One 是微软推出的通用多智能体系统,解决跨领域的复杂网络和文件任务。系统基于多智能体架构,由Orchestrator智能体领导,协调WebSurfer、FileSurfe...
X-Portrait 2是字节跳动智能创作团队推出的单图视频驱动技术,基于一张静态照片和一段驱动视频生成高质量、电影级视频。X-Portrait 2保留原图身份特征,准确...
Ichigo是开源的多模态AI语音助手,采用混合模态模型,能实时处理语音和文本的交织序列。基于将语音直接量化为离散令牌,用统一的变换器架构同时处理语音和文...
CogSound是智谱AI最新推出的音效模型,能为无声视频增添动人的音效。 基于GLM-4V的视频理解能力,CogSound能精准识别理解视频背后的语义和情感,为无声视频添...