Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独...
DMind是DMind研究机构发布的专为Web3领域优化的大型语言模型。针对区块链、去中心化金融和智能合约等场景深度优化,使用Web3数据微调采用RLHF技术对齐。
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并...
Playwright MCP 是微软推出的轻量级浏览器自动化工具,基于 Model Context Protocol (MCP) 协议。工具基于 Playwright 的可访问性树实现与网页的交互,无需依...
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视...
HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基...
Pocket Flow 是极简的 LLM(大型语言模型)框架,仅用 100 行代码实现,具有轻量级、无依赖、无厂商锁定的特点。Pocket Flow支持多Agents、工作流、检索增强...
Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训...
DeepWiki MCP 是Cognition Labs推出的远程服务器,基于开放标准的 Model Context Protocol(MCP)。DeepWiki MCP为 AI 应用提供访问和搜索 GitHub 代码库文档...
Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,...
Sparc3D是南洋理工大学联合Sensory Universe和帝国理工学院推出的用在高分辨率3D模型生成框架,解决传统3D生成方法中细节丢失和效率低下的问题。框架结合稀疏...
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生...
Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型,是Hailuo 01的升级版本。这个模型目前在图生视频、文生视频的榜单位于第二,超越快手的可灵以及谷歌的V...
OmniFlow是松下与加州大学洛杉矶分校(UCLA)合作推出的多模态AI模型。模型能实现文本、图像和音频之间的任意到任意(Any-to-Any)生成任务,例如将文本转换...
Bright Data MCP 是强大的模型上下文协议(MCP)服务器,专为公共网络访问设计。Bright Data MCP能让大型语言模型(LLMs)、agents 和应用程序实时访问、发现...
SurveyForge是上海AI Lab联合复旦大学、上海交通大学等机构推出的创新框架,用在自动化生成高质量学术综述。框架基于两阶段设计,大纲生成和内容生成。在大纲...
EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员...
EX-4D是字节跳动(ByteDance)旗下Pico团队推出的新型4D视频生成框架,能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格(DW-Mesh...
LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformer...
Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮...
Animated Drawings是Meta AI推出的开源工具,基于AI技术将手绘人物绘画自动转化为动画。Animated Drawings提供一套完整的工具和算法,能检测、分割绘画中的人...
MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,...