project
XVERSE-Ent - 元象开源的泛娱乐中英双语底座大模型
XVERSE-Ent是元象科技开源的专为泛娱乐领域设计的中英双语底座大模型,包含中文模型XVERSE-Ent-A4.2B和英文模型XVERSE-Ent-A5.7B。模型在角色一致性、长剧情...
XVERSE-Ent是什么
XVERSE-Ent是元象科技开源的专为泛娱乐领域设计的中英双语底座大模型,包含中文模型XVERSE-Ent-A4.2B和英文模型XVERSE-Ent-A5.7B。模型在角色一致性、长剧情理解和多元语境适配上表现出色,能长期保持虚拟角色的人设和风格,精准把握复杂故事线,根据不同题材提供风格化表达。技术创新包括MoE热启动技术和多阶段训练策略,经过近万亿token数据训练,上下文窗口为8K。模型参数分别为25B和36B,支持高并发低成本部署,适合云端单卡运行,大幅降低部署门槛。XVERSE-Ent在小说和对话生成等核心任务上表现卓越,同时保留了98%以上的通用能力,是泛娱乐领域中极具潜力的AI模型。
XVERSE-Ent的主要功能
-
角色一致性强化:能长期保持虚拟角色的人设、记忆和说话风格,有效避免“遗忘”或“出戏”的问题,为角色扮演和虚拟互动提供稳定的体验。
-
长剧情精准理解:可以精准把握复杂的故事线、人物关系和伏笔,生成逻辑合理且连贯的剧情内容,适用于小说创作、剧本编写等场景。
-
多元语境适配:针对不同题材(如古风、科幻、都市等)具备丰富的风格化表达和背景知识,能够根据具体场景灵活调整语言风格和内容输出。
-
中英双语支持:包含中文模型XVERSE-Ent-A4.2B和英文模型XVERSE-Ent-A5.7B,分别针对中文和英文语境进行了优化,满足不同语言用户的创作和互动需求。
-
高并发低成本部署:支持云端单卡部署,实现推理成本与处理效率的平衡,大幅降低开发者的部署门槛与运维成本,便于在各种设备上高效运行。
XVERSE-Ent的技术原理
-
MoE热启动技术:通过将一个Dense模型改造为MoE模型,将FFN部分细粒度拆分为多个子网络作为专家,结合推理时显存大小对专家子网络进行复制,实现高效的模型扩展和性能提升。
-
多阶段训练策略:采用S0能力重建、S1语言倾斜、S2领域增强三个阶段的训练,逐步构建适用于特定语言和特定领域的专用模型,确保模型在泛娱乐领域的专业性和通用性。
-
大模型架构与参数优化:中文模型XVERSE-Ent-A4.2B和英文模型XVERSE-Ent-A5.7B分别拥有25B和36B的参数量,经过近万亿token的数据训练,具备强大的语言生成和理解能力。
-
8K上下文窗口:支持8K的上下文窗口,能够处理更长的文本输入和输出,适合复杂的剧情生成和长篇对话任务。
-
低成本高效部署:支持高并发低成本部署方案,特别适合云端单卡部署,优化了推理成本与处理效率的平衡,降低了开发者的部署门槛。
XVERSE-Ent的项目地址
- Github仓库:https://github.com/xverse-ai/XVERSE-Ent
- HuggingFace模型库:https://huggingface.co/collections/xverse/xverse-ent
XVERSE-Ent的应用场景
-
虚拟角色互动:为虚拟角色赋予一致且连贯的人设和对话风格,支持长期稳定的互动体验,适用于虚拟偶像、虚拟客服等场景。
-
小说与剧本创作:能生成连贯且富有创意的长篇故事和剧本,支持复杂的剧情线和人物关系,助力创作者快速产出高质量内容。
-
游戏剧情生成:为游戏提供动态生成的剧情和对话,增强游戏的沉浸感和可玩性,适用于角色扮演游戏(RPG)和互动式叙事游戏。
-
跨文化交流:支持中英文双语生成,能帮助不同语言背景的用户进行创意写作、对话互动,促进跨文化内容创作和交流。
-
社交媒体内容创作:生成符合特定风格和主题的文案、故事或对话,帮助创作者快速生成吸引人的社交媒体内容。
-
教育与培训:通过生成互动式对话和场景模拟,用于语言学习、职业培训等教育场景,提供更生动的学习体验。