Flame - 开源的多模态前端代码生成模型
Flame是开源的多模态AI模型,支持将UI设计截图转换为高质量的现代前端代码。Flame基于视觉语言建模、自动化数据合成和结构化训练流程,生成符合React等现代前...
Flame是开源的多模态AI模型,支持将UI设计截图转换为高质量的现代前端代码。Flame基于视觉语言建模、自动化数据合成和结构化训练流程,生成符合React等现代前...
OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练...
PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照...
video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他...
DualPipe 是DeepSeek开源的创新的双向流水线并行技术,主要用于提升大规模深度学习模型的训练效率。核心思想是将模型的训练过程分为两个独立的管道——前向计算...
EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的专家并行负载均衡器,能解决大规模模型训练中不同专家模型(Expert)负载不均的问题。EPLB 基于...
PProfiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过程中的详细信息,用在分析和优化软件性能。
Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动...
R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学...
Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合分组查询注意力(G...
IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音...
Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语...
VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自...
腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache...
GPT-4.5 是 OpenAI 推出的最新大型语言模型,是目前规模最大、性能最强的聊天模型。基于扩展无监督学习,提升模式识别、知识广度和创意生成能力,减少了幻觉...
3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SS...
CorrDiff 是 NVIDIA 推出的生成式 AI 模型,用于将低分辨率的全球天气数据下采样为高分辨率数据,提高天气预测的准确性和效率。采用两步法处理数据:首先通过...
Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计。Smallpond支持处理 PB 级数据集,借助 DuckDB 的...
SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格...
VideoFusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能将视频自动旋转为横屏或竖屏,适配不同播放场...
Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文...
VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级...
HippoRAG 2是俄亥俄州立大学推出的检索增强生成(RAG)框架,解决现有RAG系统在模拟人类长期记忆动态性和关联性方面的局限性。HippoRAG 2基于个性化PageRank...