AIニュース

すべてニュースチュートリアル Wiki AIプロジェクト AIアプリ

AIプロジェクト2025/12/18

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型，具有 8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表现出色，达到与 GPT-4o ...

AIプロジェクト2025/12/18

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

Flowise 是开源的低代码/无代码拖放工具，通过拖拽可视化组件，用户可以快速构建自定义的 LLM 应用程序。提供了一套易于使用的工具和组件，无需或仅需少量编...

AIプロジェクト2025/12/18

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型，提升大型语言模型的逐步视觉推理能力。引入视觉推理链基准测试VRC-Benc...

AIプロジェクト2025/12/18

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音（TTS）模型，具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，不使用扩散模型...

AIプロジェクト2025/12/18

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

KHOJ是开源的个人化AI助手，帮助用户整合和检索知识。可连接用户的在线和本地文档，如PDF、Markdown、纯文本、GitHub和Notion文件等，通过语义搜索功能，快速...

AIプロジェクト2025/12/18

Luma Ray2 - Luma AI 推出的最新视频生成模型

Luma Ray2 是 Luma AI 推出的最新视频生成模型，Ray2 基于 Luma 新的多模态架构训练后展现出先进功能，该架构的计算能力是 Ray1 的 10 倍。能生成快速连贯的...

AIプロジェクト2025/12/18

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

RAIN（Real-time Animation Of Infinite Video Stream）是创新的实时动画解决方案，基于消费级硬件，如单个RTX 4090 GPU，实现无限视频流的实时动画化。核心...

AIプロジェクト2025/12/18

Pipecat - 构建语音和多模态对话代理的开源框架

Pipecat是开源的Python框架，专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音（TTS）和对话处理功能，简化AI服务的复杂协调、网络传输、音...

AIプロジェクト2025/12/18

RealtimeSTT - AI实时语音转文本库，自动检测说话的开始与结束

RealtimeSTT是开源的实时语音转文本库，专为低延迟应用设计。有强大的语音活动检测功能，可自动识别说话的开始与结束，通过WebRTCVAD和SileroVAD进行精准检测...

AIプロジェクト2025/12/18

Step R-mini - 阶跃星辰推出的 Step 系列首个推理模型

Step R-mini（全称Step Reasoner mini）是阶跃星辰推出的推理模型，是 Step 系列模型家族的首个推理模型，擅长主动规划、尝试和反思，基于慢思考和反复验证...

AIプロジェクト2025/12/18

GLM-Realtime - 智谱推出的端到端多模态模型

GLM-Realtime是智谱推出的全新端到端多模态模型，具备低延迟的视频理解与语音交互能力，特别融入清唱功能，让大模型在对话中能展现歌唱才能。模型支持长达2分...

AIプロジェクト2025/12/18

CogView-3-Flash - 智谱推出的首个免费AI图像生成模型

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型，能根据文本描述生成高审美分数的图像，支持多种分辨率，满足专业领域需求。模型具备创意多样性，基于...

AIプロジェクト2025/12/18

MangaNinja - 基于参考图像的线稿着色技术

MangaNinja是基于参考图像的线稿上色方法，具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案，提升了上色的准确性与图像质量。能应对...

AIプロジェクト2025/12/18

AutoMouser - AI Chrome扩展程序，实时交互跟踪自动生成测试代码

AutoMouser是Chrome扩展程序，能智能地跟踪用户交互，基于OpenAI的GPT模型自动生成Selenium测试代码。通过记录用户的浏览器操作，如点击、拖动、悬停等，将其...

AIプロジェクト2025/12/18

CogVideoX-Flash - 智谱推出的首个免费AI视频生成模型

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型，继承CogVideoX自研的端到端视频理解模型，具备强大的视频生成能力。CogVideoX-Flash支持文生视频，依...

AIプロジェクト2025/12/18

Mini-InternVL - 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Mini-InternVL是“迷你版”书生·万象大模型，是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列，包含1B、2B和4B三个参数版本...

AIプロジェクト2025/12/18

Weebo - AI语音聊天机器人，实时响应用户语音指令和问题

Weebo是实时语音聊天机器人，基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术，与用户进行自然流畅的对话，提供实时的语音交互...

AIプロジェクト2025/12/18

ParGo - 字节与中山大学联合推出的多模态大模型连接器

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器，提升视觉和语言模态在多模态大语言模型（MLLMs）中的对齐效果。通过结合局部token和全局...

AIプロジェクト2025/12/18

MatterGen - 微软推出的无机材料生成模型

MatterGen是微软推出的创新生成模型，专门用在设计无机材料。基于独特的扩散过程，逐步细化原子类型、坐标和周期晶格，从而生成跨越周期表的稳定、多样化的无...

AIプロジェクト2025/12/18

XMusic - 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容，XMusic能生成情绪、曲风、节奏可控的高质量音乐...

AIプロジェクト2025/12/18

Seaweed APT - 字节跳动推出的单步图像和视频生成项目

Seaweed APT是字节跳动推出的对抗性后训练（Adversarial Post-Training）模型，能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型，直接对真实...

AIプロジェクト2025/12/18

OmAgent - Om AI联合浙大开源的多模态语言代理框架

OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架，能简化设备端智能代理的开发。OmAgent支持可重用的代理组件，助力开发者构建复杂的多模态...

AIプロジェクト2025/12/18

T2A-01-HD - 海螺AI海外版推出新的语音模型

T2A-01-HD是海螺AI海外版推出新的语音模型。支持语音克隆，仅需10秒音频即可精准克隆声音，保留情感底色。模型具备智能情感系统，能捕捉语音中的情感细微差别...

AIプロジェクト2025/12/18

Uni-AdaFocus - 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架，框架通过自适应聚焦机制，动态调整计算资源的分配，实现对视频内容的高效处理。

←1...72 73 74 75 76 77 78...137 →

AIニュース

AIプロジェクト2025/12/18

すべてのカテゴリ

AIニュース

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

Luma Ray2 - Luma AI 推出的最新视频生成模型

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

Pipecat - 构建语音和多模态对话代理的开源框架

RealtimeSTT - AI实时语音转文本库，自动检测说话的开始与结束

Step R-mini - 阶跃星辰推出的 Step 系列首个推理模型

GLM-Realtime - 智谱推出的端到端多模态模型

CogView-3-Flash - 智谱推出的首个免费AI图像生成模型

MangaNinja - 基于参考图像的线稿着色技术

AutoMouser - AI Chrome扩展程序，实时交互跟踪自动生成测试代码

CogVideoX-Flash - 智谱推出的首个免费AI视频生成模型

Mini-InternVL - 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Weebo - AI语音聊天机器人，实时响应用户语音指令和问题

ParGo - 字节与中山大学联合推出的多模态大模型连接器

MatterGen - 微软推出的无机材料生成模型

XMusic - 腾讯多媒体实验室自主研发的AI通用作曲框架

Seaweed APT - 字节跳动推出的单步图像和视频生成项目

OmAgent - Om AI联合浙大开源的多模态语言代理框架

T2A-01-HD - 海螺AI海外版推出新的语音模型

Uni-AdaFocus - 清华大学推出通用的高效视频理解框架

AIニュース

MiniCPM-o 2.6 - 面壁智能开源的多模态大模型，性能媲美GPT-4o

FlowiseAI - AI应用构建工具，拖拽可视化组件自定义LLM应用

LlamaV-o1 - 多模态视觉推理模型，采用逐步推理学习方法解决复杂任务

Kokoro-TTS - 轻量级文本转语音模型，支持多语言多语音风格生成

KHOJ - 开源 AI 个人化助手，一站式知识管理工具

Luma Ray2 - Luma AI 推出的最新视频生成模型

RAIN - 视频流制作实时动画生成和真人表情移植解决方案

Pipecat - 构建语音和多模态对话代理的开源框架

RealtimeSTT - AI实时语音转文本库，自动检测说话的开始与结束

Step R-mini - 阶跃星辰推出的 Step 系列首个推理模型

GLM-Realtime - 智谱推出的端到端多模态模型

CogView-3-Flash - 智谱推出的首个免费AI图像生成模型

MangaNinja - 基于参考图像的线稿着色技术

AutoMouser - AI Chrome扩展程序，实时交互跟踪自动生成测试代码

CogVideoX-Flash - 智谱推出的首个免费AI视频生成模型

Mini-InternVL - 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Weebo - AI语音聊天机器人，实时响应用户语音指令和问题

ParGo - 字节与中山大学联合推出的多模态大模型连接器

MatterGen - 微软推出的无机材料生成模型

XMusic - 腾讯多媒体实验室自主研发的AI通用作曲框架

Seaweed APT - 字节跳动推出的单步图像和视频生成项目

OmAgent - Om AI联合浙大开源的多模态语言代理框架

T2A-01-HD - 海螺AI海外版推出新的语音模型

Uni-AdaFocus - 清华大学推出通用的高效视频理解框架