InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度...
InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度...
CLEAR是新加坡国立大学推出新型线性注意力机制,能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内,CLEAR实...
DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效...
OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言模型,结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。OCTAV...
Granite 3.1是IBM推出的新一代语言模型,具有强大的性能和更长的上下文处理能力。Granite 3.1模型家族有 4 种不同的尺寸和 2 种架构:密集模型2B和8B参数模型...
Sketch2Sound是Adobe 研究院和西北大学推出的AI音频生成技术,能基于声音模仿和文本提示生成高品质音效。Sketch2Sound从声音模仿中提取响度、亮度和音高三个...
OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
DreamOmni 是香港中文大学、字节跳动和香港科技大学共同推出的统一图像生成和编辑模型。模型整合文本到图像(T2I)生成和多种编辑任务,包括指令式编辑、修复...
QVQ是阿里基于Qwen2-VL-72B构建的开源多模态推理模型,结合视觉理解和复杂问题解决能力,提升人工智能的认知能力。QVQ在视觉推理任务中展现出增强的能力,尤...
Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支持多笔记本、多模型...
PC Agent是上海交通大学和Generative AI Research Lab (GAIR)联合推出的先进AI系统。系统基于模拟人类认知过程,执行如组织研究材料、起草报告和创建演示文稿...
Midscene.js是基于AI技术的自动化SDK,通过用大型语言模型(LLM)简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式,Midscene.js将执行...
ASAL(Automated Search for Artificial Life)是用基础模型自动化搜索人工生命(ALife)系统。ASAL是Sakana AI及MIT、OpenAI等机构联合推出的,主要基于三种...
Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉...
TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产...
WiS(Who is Spy)是淘天集团和阿里的技术研究团队推出的创新在线AI竞赛平台,专门设计用在测试和分析基于大型语言模型(LLMs)的多智能体系统(MAS)。WiS模...
DRT-o1是腾讯研究院推出的一系列AI模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐喻等修辞手法时。模型能更深入地理解...
FastExcel是基于Java的开源库,提供快速、简洁且能解决大文件内存溢出问题的Excel处理工具。FastExcel兼容EasyExcel,提供性能优化、bug修复,新增如读取指定...
FinRobot是开源的AI代理平台,专注于金融领域的应用。基于大型语言模型(LLMs)来构建能进行复杂分析和决策的金融专业AI代理。平台通过金融思维链(CoT)提示...
DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表...
3DHM(3D Human Motions)是先进的3D人体动作生成技术,加州大学伯克利分校的研究人员推出。能从单张人物照片生成具有3D控制的动态人体视频,实现从静态图像...
Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL) 散...
VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化...
Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正...