sCM - OpenAI推出连续时间一致性模型,两步采样生成高质量图像
sCM是OpenAI推出的连续时间一致性模型,基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程,实现图像生成速度的显著提升。sCM模型仅需两步采样能生成...
sCM是OpenAI推出的连续时间一致性模型,基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程,实现图像生成速度的显著提升。sCM模型仅需两步采样能生成...
Moonshine是专为资源受限设备优化的语音识别模型,提供快速且准确的实时语音转文本服务。适于需要即时响应的应用场景,例如现场转录和语音命令识别。Moonshin...
Time-MoE是创新的时间序列基础模型,基于混合专家(Mixture of Experts, MoE)架构,将时间序列预训练模型的参数规模扩展至十亿级别。模型用稀疏激活机制,在...
SynthID 是 DeepMind 推出的技术工具,基于在 AI 生成的内容中嵌入数字水印帮助识别内容。水印对人类是不可感知的,但能被机器检测到,促进信息的信任度。Syn...
Whispo是AI驱动的语音转录工具,支持用户按住Ctrl键录制语音,在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据处理完全...
AutoGLM-Web是模拟用户操作的智能浏览器助手,基于大型语言模型构建,能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指令,AutoGLM-Web能...
OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及...
CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符...
OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,...
DuoAttention是新型的框架,由MIT韩松团队提出,用在提高大型语言模型(LLMs)在处理长上下文时的推理效率。基于区分“检索头”和“流式头”两种注意力头,优化模...
HuggingChat macOS是Hugging Face推出的开源聊天应用程序,专为macOS用户设计,基于强大的开源语言模型,将先进的AI对话能力直接带到用户的桌面上。应用支持...
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能...
Ditto是基于Flask的应用程序生成器,用户基于简单的自然语言描述创建多文件的Web应用程序。工具用一个简单的LLM循环和一些辅助工具自动化编码过程,将用户的...
Flux.1 Lite是Freepik团队推出的轻量级AI模型,目前处于alpha版本。Flux.1 Lite是基于80亿参数的transformer架构,从FLUX.1-dev模型中提取而来。Flux.1 Lite...
Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能够协同工作的代理团队,提供用户界面实现与代理的交...
Allegro是由Rhymes AI推出的先进的文本到视频生成模型,能将简单的文本输入转换成高达720p分辨率、每秒15帧、长度达6秒的高质量视频内容。模型在视频生成领域...
FakeShield是北京大学研究人员推出的多模态大型语言模型框架,能检测和定位图像伪造。框架能评估图像的真实性,生成被篡改区域的掩码,提供基于像素级和图像...
MaskGCT是趣丸科技与香港中文大学(深圳)合作推出的语音合成大模型,基于掩码生成模型与语音表征解耦编码的技术,实现在声音克隆、跨语种合成、语音控制等任...
GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征...
Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创...
AutoGLM是智谱推出的全球首个手机Agent,通过AI技术为用户提供高效的操作代理服务。AutoGLM基于国产GLM-4.5和GLM-4.5V模型,具备推理、代码和多模态能力。Aut...
EveryoneNobel是一个开源AI工具,为每个人生成个性化的诺贝尔奖风格图像。EveryoneNobel基于ComfyUI框架,结合HTML模板和图像生成技术,用户只需上传肖像照片...
TextHarmony是华东师范大学和字节跳动共同推出的多模态生成模型,擅长理解和生成视觉文本。模型基于Slide-LoRA技术,动态聚合特定于模态和模态无关的LoRA专家...
BlinkShot是实时AI图像生成器,能迅速生成高质量的图像。用户只需输入提示,BlinkShot能在几毫秒内生成图像。工具基于Together AI的Flux Schnell技术,支持自...