MV-Adapter - 北航联合 VAST 等开源的多视图一致图像生成模型
MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图...
MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图...
FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Ground...
MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文...
EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集...
WeaveFox 是蚂蚁集团推出的 AI 前端智能研发平台,为开发者和创作者提供了全新的生产力工具。核心功能是将设计图快速转换为高质量的前端代码,支持多种设计文...
UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像...
X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供...
Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基于高斯溅...
Gemini 2.0 Flash Thinking 是谷歌最新发布的推理增强型 AI 模型,专为复杂问题的高效推理和可解释性设计。在 Chatbot Arena 排行榜上表现卓越,超越了前代模...
Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快...
AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考...
ElevenLabs Flash是ElevenLabs推出的低延迟语音合成模型,专为快速对话型AI设计。ElevenLabs Flash有两个版本:Flash v2仅支持英语,Flash v2.5支持32种语言...
OpenAI o3模型是继o1之后的新一代推理模型,是 OpenAI 首次将图像推理融入思维链的模型,能直接在思维链中思考图像。用户可以上传模糊、颠倒或低质量的图像,...
StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融...
RWKV-7是RWKV系列的最新大模型架构版本,超越了传统的attention和linear attention范式,具有更灵活的状态演化能力,能在相同算力消耗下解决attention无法解...
PromptWizard是微软推出的自动化提示优化框架,改进大型语言模型(LLMs)在特定任务中的表现。基于自我演变和自我适应机制,PromptWizard用反馈驱动的批评和...
INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头...
VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、...
MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tuning(VPiT)...
AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API...
LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviT...
3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模...
ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新...
Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用领域自约束训练,在...