MultiFoley - Adobe 联合密歇根大学推出的音效生成系统
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...
CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指...
Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。...
Co-op Translator是微软推出的开源翻译工具,基于Azure AI服务实现项目文档和图像中文本的自动化多语言翻译。仅需一条命令,Co-op Translator能分析项目内容...
AnchorCrafter是基于扩散模型的智能视频制作系统,用在自动生成具有高保真度的主播风格产品推广视频。基于整合人-物交互(HOI)到姿态引导的人体视频生成中,...
MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。My...
HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多帧输入和时...
MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机...
360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新,基于...
GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架,能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人...
MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法,专为自动驾驶应用设计,实现高分辨率和长...
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,能解决SAM 2模型在移动设备上部署时的高计算复杂度问题。基于用简单的非层次化Vision Transforme...
Amazon Nova 是亚马逊云服务(AWS)推出的新一代AI基础模型系列,提供行业领先的性能和成本效益。该系列包括专门处理文本的Amazon Nova Micro、多模态的Amazo...
HunyuanVideo是腾讯开源的视频生成模型,拥有130亿参数,是目前参数量最大的开源视频模型之一。HunyuanVideo具备物理模拟、高文本语义还原度、动作一致性和电...
Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角...
GPT学术优化(GPT Academic)是功能丰富的开源项目,专为学术研究和写作设计。GPT学术优化集成一键论文翻译、源代码解析、互联网信息获取、Latex文章校对、论...
Vanna是开源的Python RAG(Retrieval-Augmented Generation)框架,能帮助用户基于大型语言模型(LLMs)为其数据库生成精确的SQL查询。Vanna用两步简单流程操...
PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术,结合扩散模型和3D人类建模,能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaCr...
StableAnimator是复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。StableAnimator能根据一张参考图像和一...
I2V-01-Live是海螺AI推出的图生视频模型,能将静态二维图像转化为动态视频。模型基于深度学习技术,增强动作的流畅度和生动性,让人物或对象的动作更加自然和...
Genie 2是DeepMind推出的新一代大规模基础世界模型,能仅凭一张图片生成长达1分钟的可交互3D游戏世界。Genie 2能模拟出物体交互、角色动画、物理效果等复杂动...
Luma Photon 是 Luma AI 推出的新一代图像生成模型,用创新的架构提供超高图像质量和低成本效率。Luma Photon支持个性化和创造性的图像生成,能理解自然语言...
TeleAI 视频生成大模型是中国电信AI研究院推出的视频生成模型,基于两阶段生成框架:先根据文本描述创建分镜头草图,再基于草图生成视频。TeleAI 视频生成大...
TPDM(Time Prediction Diffusion Model)是西湖大学MAPLE实验室、南方科技大学、北京大学及西湖大学高等研究院先进技术研究所联合推出的图像生成模型,能自...