project
TeleChat3 - 中国电信推出的千亿参数MoE语义大模型
TeleChat3是中国电信人工智能研究院(TeleAI)自主研发的千亿参数细粒度MoE语义大模型,采用国产算力训练,支持多轮对话、文本创作、代码生成等任务。模型包...
TeleChat3是什么
TeleChat3是中国电信人工智能研究院(TeleAI)自主研发的千亿参数细粒度MoE语义大模型,采用国产算力训练,支持多轮对话、文本创作、代码生成等任务。模型包含105B参数(实际激活4.7B),通过192个路由专家实现精准知识调用,擅长处理复杂任务如游戏设计、网页开发等。特色在于全链路国产化技术,训练效率达93%,已应用于智能客服、政务问答等场景,开源了36B稠密模型版本。
TeleChat3的主要功能
-
代码生成与优化:能高效拆解任务需求,整合多项代码能力,一次性交付完整可运行的代码,实现代码补全、代码修改、网站和网页游戏生成等多类任务,省去大量人工调试时间投入,运行流畅,结果准确。
-
知识问答与逻辑推理:在知识问答、逻辑推理等维度实现了能力提升,能更好地理解和回答用户的问题,提供准确的知识信息和逻辑推理结果。
-
文本创作与语义理解:具备文本创作能力,能生成高质量的文本内容,在语义理解方面进行了针对性优化,能更好地理解用户输入的文本信息。
-
角色扮演与多轮对话:支持角色扮演功能,可以根据用户设定的角色和场景进行对话,在多轮对话中能自动处理历史信息,保持对话的连贯性和一致性。
-
引入“Thinking模式”:通过在对话模板中加入特定引导符号,模型可自动生成中间推理步骤,显著提升在复杂任务中的逻辑性与准确性,使AI推理过程可追溯。
TeleChat3的技术原理
-
模型架构:TeleChat3采用细粒度Mixture-of-Experts(MoE)架构,例如TeleChat3-105B-A4.7-Thinking模型包含1个共享专家和192个路由专家,每次激活4个专家。
-
推理机制:TeleChat3支持长文推理优化,通过NTK-aware外推和attention scaling方法,能将在较短长度上微调的模型在推理时外推到更长的长度。
-
训练与优化:系列模型完全基于国产算力(如上海临港国产万卡算力池)训练,基础数据量达15T tokens。同时,模型实现了对昇腾Atlas 800T A2训练服务器及昇思MindSpore框架的深度适配。
-
思考模式:TeleChat3全系支持Thinking思考模式,通过在chat template中加入特定引导符号生成推理过程,提升在复杂任务中的逻辑性与准确性。
-
位置编码与注意力机制:采用旋转位置编码(Rotary Embedding)为token注入位置信息,通过对查询(Q)和键(K)的旋转操作,使模型捕捉序列的顺序依赖关系。同时,支持因果自注意力机制,确保每个位置的预测仅依赖于前面的token。
-
非线性增强:模型包含多层感知机(MLP)模块,用于对注意力层的输出进行非线性变换,增强模型的表达能力。
TeleChat3的项目地址
- Github仓库:https://github.com/Tele-AI/TeleChat3
- ModelScope:
- https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking
- https://www.modelscope.cn/models/TeleAI/TeleChat3-36B-Thinking
TeleChat3的应用场景
-
代码生成与开发辅助:可用于代码补全、代码修改以及生成网站和网页游戏等,帮助开发者快速实现编程任务,提高开发效率。
-
知识问答与教育:在知识问答、逻辑推理等任务中表现良好,能为用户提供准确的知识信息,适用于教育领域,辅助学习和答疑。
-
文本创作与内容生成:能生成高质量的文本内容,可用于写作、文案创作、新闻报道等场景,满足不同文本创作需求。
-
多轮对话与客服:支持多轮对话,能自动处理历史信息,保持对话连贯性,适用于智能客服、虚拟助手等场景。
-
角色扮演与互动娱乐:支持角色扮演功能,可根据用户设定的角色和场景进行对话,应用于游戏、互动娱乐等领域。