AutoGLM-Web - AI浏览器助手,模拟用户进行网页浏览与交互
AutoGLM-Web是模拟用户操作的智能浏览器助手,基于大型语言模型构建,能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指令,AutoGLM-Web能...
AutoGLM-Web是模拟用户操作的智能浏览器助手,基于大型语言模型构建,能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指令,AutoGLM-Web能...
OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及...
CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符...
OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,...
DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
HuggingChat macOS是Hugging Face推出的开源聊天应用程序,专为macOS用户设计,基于强大的开源语言模型,将先进的AI对话能力直接带到用户的桌面上。应用支持...
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能...
Ditto是基于Flask的应用程序生成器,用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程,将用户的...
Flux.1 Lite是Freepik团队推出的轻量级AI模型,目前处于alpha版本。Flux.1 Lite是基于80亿参数的transformer架构,从FLUX.1-dev模型中提取而来。Flux.1 Lite...
Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交...
Allegro是由Rhymes AI推出的先进的文本到视频生成模型,能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内容。模型在视频生成领域...
FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像...
MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任...
GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征...
Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创...
AutoGLM是智谱推出的全球首个手机Agent,通过AI技术为用户提供高效的操作代理服务。AutoGLM基于国产GLM-4.5和GLM-4.5V模型,具备推理、代码和多模态能力。Aut...
EveryoneNobel是一个开源AI工具,为每个人生成个性化的诺贝尔奖风格图像。EveryoneNobel基于ComfyUI框架,结合HTML模板和图像生成技术,用户只需上传肖像照片...
TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家...
BlinkShot是实时AI图像生成器,能迅速生成高质量的图像。用户只需输入提示,BlinkShot能在几毫秒内生成图像。工具基于Together AI的Flux Schnell技术,支持自...
NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现,用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...
WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架,能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian ...
Meissonic是由阿里巴巴集团、Skywork AI等多所大学合作推出的文本到图像合成模型。基于掩蔽图像建模技术,结合多模态和单模态Transformer层、高级位置编码策...
Zamba2-7B是Zyphra公司推出的小型语言模型,基于创新的架构在保持输出质量的同时实现快速的推理速度和低内存占用。模型在处理图像描述等任务时表现出色,适合...
PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,...