project
WorldCupVoice - 开源的 AI 实时体育解说系统
WorldCupVoice 是开源的 AI 实时体育解说系统,通过接入 Agora RTC 直播流,由视觉模型分析比赛画面并生成实时语音解说,回传至直播间与观众同步收听。
WorldCupVoice是什么
WorldCupVoice 是开源的 AI 实时体育解说系统,通过接入 Agora RTC 直播流,由视觉模型分析比赛画面并生成实时语音解说,回传至直播间与观众同步收听。系统支持 OpenAI TTS、ElevenLabs 和 Fish Audio 多语音引擎,可配置英语、法语、中文等多语言解说风格。系统专为世界杯等体育赛事设计,同时兼顾视障用户的无障碍观赛需求,提供球场空间细节等传统解说常忽略的信息。
WorldCupVoice的主要功能
-
实时 AI 解说:从 Agora RTC 直播流中采样视频帧,由视觉模型分析比赛画面,生成实时语音解说并回传至直播间。
-
多语音引擎支持:兼容 OpenAI TTS、ElevenLabs和 Fish Audio。
-
多语言解说:支持英语、法语、中文等多语言,可配置不同国家的解说风格。
-
直播流接入:通过 RTMP 推流 → Agora Media Gateway → RTC 频道,兼容 OBS、本地视频、云端推流等多种源。
-
浏览器观赛界面:基于 Next.js 的前端,同步播放直播视频、AI 解说音频、实时字幕和解说员状态监控。
-
成本管控机制:显式 Start/Stop AI 控制、观众心跳检测、硬会话超时,防止 AI 资源无限消耗。
-
视障辅助模式:提供球场级空间细节,弥补传统人类解说常忽略的信息。
微信关注回复“开源”,加入AI开源项目交流群
如何使用WorldCupVoice
-
环境准备:配置 Agora App ID/Certificate、OpenAI API Key、生成后端密钥。
-
前端启动:
pnpm install→ 配置.env.local→pnpm dev。 -
后端启动:
cd server→ 创建 Python 虚拟环境 →pip install→ 配置 TTS 提供商 →uvicorn app.main:app。 -
推流设置:通过 Agora Media Gateway REST API 生成 RTMP 推流密钥,使用 OBS 或本地 ffmpeg 推流。
-
开始解说:浏览器进入直播间,点击「Start AI」启动 AI 解说员。
WorldCupVoice的核心优势
-
实时性:AI 与观众观看同一 RTC 流,解说延迟可控。
-
无障碍设计:为视障用户提供传统解说无法覆盖的空间细节信息。
-
多语音风格:支持专业体育解说员风格(ElevenLabs)、中文梗解说(Fish Audio)、战术分析风格。
-
成本可控:会话级启停控制 + 心跳机制 + 硬超时,避免 AI 资源浪费。
-
开源可扩展:MIT 协议,支持自定义比赛数据注入 AI 上下文。
WorldCupVoice的项目地址
- GitHub仓库:https://github.com/zicojiao/worldcupvoice
WorldCupVoice的同类竞品对比
| 对比维度 | WorldCupVoice | WSC Sports |
|---|---|---|
| 产品定位 | 开源实时 AI 体育解说系统 | 企业级 AI 体育内容自动化平台 |
| 核心功能 | 实时观看 RTC 直播流并生成 AI 语音解说 | 自动识别比赛精彩瞬间,生成集锦、短视频、社交媒体内容 |
| 实时性 | 实时直播解说,与观众同步收听 | 实时分析直播流,但主要用于赛后/赛中自动生成内容 |
| 开源性 | MIT 协议开源,可自托管 | 闭源 SaaS 平台,企业订阅制 |
| 部署方式 | 前端 Vercel + 后端 Railway 自托管 | 云端 SaaS,API 集成 |
| 语音能力 | 支持 OpenAI TTS、ElevenLabs、Fish Audio 多引擎 | 内置 AI 配音与多语言支持 |
| 无障碍设计 | 专为视障用户设计,提供球场空间细节 | 通用体育内容生成,不特定针对视障 |
WorldCupVoice的应用场景
-
世界杯/足球赛事直播:为直播平台添加 AI 解说频道,提供多语言多风格选择。
-
视障体育观赛:为盲人或低视力用户提供详细的球场空间信息解说。
-
小众赛事直播:为缺乏专业解说资源的低级别联赛、校园比赛提供自动化解说。
-
多语言国际赛事:同一比赛流同时输出中/英/法等多语言 AI 解说。
-
电竞赛事解说:扩展至 LOL、CS2 等电竞比赛的实时 AI 战术解说。