NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现,用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...
NotebookLlama是Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现,用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及...
WonderWorld是斯坦福大学和麻省理工学院共同推出的创新性3D场景生成框架,能从单张图片快速生成多样化且连贯的3D虚拟世界。基于核心的Fast LAyered Gaussian ...
Meissonic是由阿里巴巴集团、Skywork AI等多所大学合作推出的文本到图像合成模型。基于掩蔽图像建模技术,结合多模态和单模态Transformer层、高级位置编码策...
Zamba2-7B是Zyphra公司推出的小型语言模型,基于创新的架构在保持输出质量的同时实现快速的推理速度和低内存占用。模型在处理图像描述等任务时表现出色,适合...
PersonaTalk是字节跳动推出的基于注意力机制的两阶段框架,用在实现高保真度和个性化的视觉配音。PersonaTalk能在合成与目标音频精准唇形同步的视频的同时,...
OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG框架的知识图谱引擎。OpenSPG融合LPG的结构性和RDF的语义性,克服RDF/OWL语义复杂难以落地的问题,继承LPG结构...
LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和...
SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察...
VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构,在视觉语言理解和生成方面...
Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视...
Embed3是Cohere公司推出的行业领先的多模态AI搜索模型,能从文本和图像生成嵌入向量,帮助企业快速准确地搜索复杂报告、产品目录和设计文件等多模态资产。Emb...
DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运...
MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像...
SDXL-EcomID是阿里妈妈推出的开源项目,从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点,优化背景一致性、面部关键点控制和面部真实性,提高...
DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。
GitHub Spark是GitHub推出的AI编程工具,支持GPT-4o、Claude Sonnet 3.5等四款编程模型。用户无需任何代码和部署环境,基于自然语言描述需求,能在桌面或移动...
SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”...
VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进...
D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像...
PromptFix是微软开发的开源AI图像修复工具,基于扩散模型技术,能根据用户指令处理损坏的图片,移除不需要的元素。PromptFix支持多种图像处理任务,包括上色...
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混...
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。Mimi...
Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D...