OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG框架的知识图谱引擎。OpenSPG融合LPG的结构性和RDF的语义性,克服RDF/OWL语义复杂难以落地的问题,继承LPG结构...
OpenSPG是蚂蚁集团联合OpenKG社区推出的基于SPG框架的知识图谱引擎。OpenSPG融合LPG的结构性和RDF的语义性,克服RDF/OWL语义复杂难以落地的问题,继承LPG结构...
LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和...
SynthID Text 是谷歌DeepMind 推出的文本水印技术,用在识别和验证由大型语言模型(LLM)生成的文本。基于细微调整生成过程中的Token概率分数嵌入几乎无法察...
VILA-U是集成视频、图像、语言理解和生成的统一基础模型。基于单一的自回归下一个标记预测框架处理理解和生成任务,简化模型结构,在视觉语言理解和生成方面...
Video-XL是北京智源人工智能研究院联合上海交大、中国人民大学、中科院、北邮和北大的研究人员共同推出的专为小时级视频理解设计的超长视觉理解模型。基于视...
Embed3是Cohere公司推出的行业领先的多模态AI搜索模型,能从文本和图像生成嵌入向量,帮助企业快速准确地搜索复杂报告、产品目录和设计文件等多模态资产。Emb...
DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运...
MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像...
SDXL-EcomID是阿里妈妈推出的开源项目,从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点,优化背景一致性、面部关键点控制和面部真实性,提高...
DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。
GitHub Spark是GitHub推出的AI编程工具,支持GPT-4o、Claude Sonnet 3.5等四款编程模型。用户无需任何代码和部署环境,基于自然语言描述需求,能在桌面或移动...
SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”...
VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进...
D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像...
PromptFix是微软开发的开源AI图像修复工具,基于扩散模型技术,能根据用户指令处理损坏的图片,移除不需要的元素。PromptFix支持多种图像处理任务,包括上色...
Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混...
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。Mimi...
Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D...
TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集Tim...
EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传...
DreamVideo-2是创新的零样本视频定制框架,是复旦大学和阿里巴巴集团等机构联合推出。DreamVideo-2能根据单一图像和界定框序列生成具有特定主题和精确运动轨...
NotebookMLX是开源版本的NotebookLM,集成NotebookLlama的功能,能将PDF文档转换成易于理解和分享的音频播客形式。项目基于MLX技术实现自然语言处理功能,包...
HOVER是英伟达推出的1.5M小模型,全称为“Humanoid Versatile Controller”,即人形机器人的多功能全身神经通用控制器。模型用150万参数实现对机器人复杂动作的...