AI Scientist - Sakana AI推出的全自动科学发现AI系统
AI Scientist是Sakana AI推出的首个全自动科学发现AI系统。能独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程。
AI Scientist是Sakana AI推出的首个全自动科学发现AI系统。能独立完成从创意生成、编码、实验执行到撰写科学论文的整个研究流程。
ControlNeXt是一种新型的AI图像和视频可控生成框架,由香港中文大学和商汤科技联合开发。采用轻量化控制模块和创新的交叉归一化技术,大幅降低计算资源和训练...
FancyVideo是360联合中山大学推出的AI文生视频模型。基于创新的跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM),能根据文本提示生成动态丰...
MovieDreamer是浙江大学联合阿里巴巴专为长视频研发的AI视频生成框架。结合自回归模型和扩散渲染技术,能生成具有复杂情节和高视觉质量的长视频。
Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10种不同语言的准确视觉文本渲染,审...
Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...
CrewAI是专注于构建多个 AI Agents 高效协作的开源平台,通过简化 AI Agents 框架的使用,企业能快速构建和部署智能自动化解决方案。CrewAI平台的核心优势在...
HybridRAG 是黑石联合英伟达推出的混合检索增强生成架构,结合了检索增强生成(Retrieval-Augmented Generation)模型的机器学习架构。模型通过检索系统寻找...
DeepSeek-Prover-V1.5是由DeepSeek团队开发的开源数学大模型,拥有70亿参数。模型通过结合强化学习(RLPAF)和蒙特卡洛树搜索(特别是RMaxTS变体),在数学定...
SadTalker是西安交通大学、腾讯AI实验室和蚂蚁集团联合推出的开源AI数字人项目。SadTalker专注于通过单张人脸图像和语音音频,利用3D运动系数生成逼真的说话...
xGen-MM是Salesforce推出的一款开源多模态AI模型,具有处理交错数据的能力,能同时理解和生成文本、图像等多种数据类型。xGen-MM通过学习大量的图片和文字信...
Phi-3.5是微软推出的新一代AI模型系列,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合...
TrackGo是先进的可控AI视频生成技术,通过用自由形状的遮罩和箭头,为用户提供了一种灵活而精确的机制来控制视频中对象的运动。技术的核心是TrackAdapter,一...
GPT Pilot 是一款AI编程工具,通过模仿人类开发者的工作流程,帮助从零开始构建应用程序。能编写代码、调试程序、与用户讨论问题,并请求代码审查,是真正的 ...
GaussianEditor 是一种基于高斯飞溅(Gaussian Splatting)的3D编辑算法,支持用户快速而精确地修改3D场景。通过高斯语义跟踪和分层高斯飞溅,提供了高度的编...
Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
mPLUG-Owl3是阿里巴巴推出的先进通用多模态大模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。
Moffee是开源的Markdown转PPT工具,支持用户使用Markdown语法快速创建专业的幻灯片。Moffee自动处理布局、分页和样式,支持实时预览和导出为PDF或HTML格式。
Lingo 是西湖心辰推出的国内首个端到端语音大模型,在技术上具备实时打断、实时指令控制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。
山海大模型是云知声推出的多模态AI大模型,具备丰富的知识储备和多模态交互能力。山海大模型能通过文本、音频、图像等多种形式与用户进行实时互动,提供信息...
AIEditor是面向 AI 的下一代富文本编辑器,AIEditor基于 Web Component 开发,支持 Layui、Vue、React、Angular、Svelte 等几乎任何前端框架。AIEditor适配了...
Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码进64x64像素的2D图像中,从而简化3D建模流程。
浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态大模型,具备7B规模的大型语言模型后端。能处理长达96K的长上下文,支持超高分辨率图像和细粒度视频...
GLM-4-Flash是智谱AI推出的首个免费大模型API,GLM-4-Flash不仅支持多轮对话和多语言处理,还具备网页浏览、代码执行等高级功能。开发者和企业可以在智谱AI开...