模型训推:从算力优化
到应用落地
通用性
解决多个任务的能力
模型能应用于
不同的数据集或任务
模型在从未见过的数据上
能表现出良好的性能能力
泛化性
对新数据的适应能力
实用性
应用时的可用性和效率
模型能以合理的时间和资源
快速处理数据并做出正确的决策
专家系统 1968
知识表征
1974
XCON 1980
语义网络线路图 1998
AlexNet 2012
Transformer 2017
GPT3
算力瓶颈
1990
计算机视觉 1976
深度学习2006
条件随机场 2001
图神经网络 2005
BERT2018BP算法 1986
AlphaF old 2
AI进入
“大模型”时代
达特茅斯会议·1956年8月发起,提出了“人工智能”
这一名词,汇集了一批日后AI领域最重要的学者
感知机 1957
GPT-4
ChatGPT
达特茅斯会议 1956
深蓝击败卡斯帕罗 1995
支持向量
1995
NLP神经网络 2013
ResNet 2015
AlphaGo战胜李世石 2016
联邦学习2016
行业背景:Scaling Laws 带来质变,AI 进入大模型
时代
业务挑战:模型构建与应用仍存在诸多挑战
大规模训练不稳定
大规模模型训练需耗费大
量GPU 资源且训练周期长,
对训练平台的稳定性、故
障隔离性、自动容错性等
底座能力,以及任务长时间
成功运行考验极大
模型欠缺行业知识
通用领域大模型百花齐放,
但都不具备特定行业的独
有知识和任务处理能力,
欠缺行业属性导致无法落
地实际业务
资源调度管理难
采购的算力资源有限,使
用诉求远超可用算力,需
要高效的算力资源调度管
理系统,灵活分配算力使
用,减少节点资源碎片,
提高资源使用率
数据准备投入大
算法人员要投入超过60%
时间进行高质量数据准备,
针对大批量数据,进行数
据清洗,标注,特征工程,
等一系列预处理
核心需求:模型开发全生命周期
场景选型 模型构建 部署应用
应用场景
资源采购
业务形态
数据评估
资源评估
环境搭建
服务开通
交付方案
项目排期
训练数据准备
模型训练
知识挖掘+增强
数据清洗+切块
向量库建设+维护
训练平台搭建
大模型-无监督训练
大模型-有监督训练
深度学习训练
机器学习训练
训练框架加速
脱敏合规 模型评测
模型管理
服务发布
性能评测
效果评测
模型注册
模型发布
推理框架加速
推理服务部署
应用联调
应用发布
TI-ONE覆盖环
节
腾讯云TI平台
腾讯云TI平台(Tencent Cloud TI Platform)是基于腾讯先进AI能力和多年技术经验,面向企业提供的全栈式人工智能开发服务平台,致力于打通包含 从数
据获取、数据处理、算法构建、模型训练、模型优化、模型评估、模型部署、到AI应用开发的产业+AI落地全流程链路,帮助用户快速创建和部署AI应用, 管理
全周期 AI解决方案,从而助力政企单位加速数字化转型并促进AI行业生态共建。
产品概述
应用和解决方案开发者
基于腾讯云TI平台的开放能力,结合行业特点构建应用解决方案。充分发掘AI价值,助力各行各业数字化转型
泛政府产业AI应用 泛互联网AI应用 金融产业AI应用 企业AI应用
机器学习平台 TI-ONE
面向数据科学家,提供从数据预处理、模型
训练、自动学习、模型评估到模型发布部署
的全流程支持
AI应用服务平台 TI-Matrix
面向AI应用开发者,快速接入模型、数据和智
能设备。提供模型部署、应用工作流编排、云
边端调度等功能,快速构建智能应用
腾讯云TI平台 Tencent Cloud TI Platform
算法和模型开发者 数据服务提供商 智能设备提供商
算法
模型
算法
服务
数据采集 数据标注 IPC 国标平台
计算资源 网络资源 存储资源 容器平台
基础设施
十
大
能
力
中
心
能
力
平
台
训练平台 TI-ONE
应用服务平台 TI-Matrix
管理中心
边缘中心
应用中心
数据中心
模型管理
自动学习
应用编排
训练工坊
模型部署
大模型精调
应用场景——一站式大模型精调解决方
案
AI建模部署
大模型精调
快速试一试:
零代码一键部署大模型,网页问答体验推理效果
数据
精调训练:
低代码、灵活自定义两种精调模式自由选择
评测 部署
数
据
中
心
内置推理加速:全新升级Angel推理加速能力,加
速比可达2倍
大模型调用:统一的大模型调用API及体验工具,大
幅缩短业务接入大模型能力周期
模
型
部
署
AI资产管
理
自研混元大模型
从零训练自主创新的通用大模型
7b 13b 70b 389b不同参数量级
自研行业大模型
金融/汽车/医疗,提升垂类任务性能
支持知识增强、实时更新知识库
开源大模型
DeepSeek/Llama/baichuan/Qwen等
全面接入主流开源模型
数据构建
预置3大类精调数
据处理pipeline
数据标注
CV,文本类标注工具
训练 调试
训
多种训练工具:具备周期调度能力的可视化建模,低门槛深度学习场
景化工具,交互式代码开发工具,专业的通用任务调度工具
练 分布式稳定训练:支持多机多卡大规模训练,故障自动重启续训
工 镜像制作:基于jupyter的高效自定义镜像制作工具
坊 训练指标监控:丰富的指标监控及告警,覆盖网络及GPU算力
内置训练加速:全新升级Angel训练框架加速能力,性能提升30%
大模型评测: 提供轻量体验,客观评测,主观评测的三阶段评测工具
AI框架
Pyspark,pytorch, vllm等通用训练框架
triton,vllm,sglang,pmml等通用推理框架
差异化竞争力:数据构建
3大类数据处理
pipeline
100+细分任务的精调配比数据(公有云
)
灵活开源的 pipeline 代码脚
本 有监督训练-多轮问答
有监督训练-单轮问答
无监督预训练
覆盖12大类下的100+LLM应用场景
文本创作, 开放式问答, 基础语言能力, 对话, 角色
扮 演, 智能体, 思维链. 阅读理解. 文本理解, 信息
提取, 知识挖掘, 代码生成
预置数据处理链代码预置Notebook快速开
始
精调任务无需额外配置
加载配比数据
根据样本量和任务类型
分配配比数据
智能分配 自动加载开源可扩展开箱即用
pipeline预置5大高质量数据处理环节
原始数据分析->数据清洗->数据去重-
>prompt优化->训练格式转换
超 过 100w条 预 置 配 比 数
据 每 个 细 分 任 务 类 型 均
预 置 腾 讯 自 研 精 调 配 比 数
据
腾讯:灵活的数据构建pipeline、细致的算法任务分类和智能的数据配比功
能业界通用做法:网页式一键勾选启用哪些内置清洗函数
交互友好,易上手
清洗环节固定、内置清洗函数黑盒,无可扩展性
无法满足实战过程中复杂多变的数据构建诉求
差异化竞争力:数据标注
腾讯:灵活定义数据schema,自动生成多种大模型标注操作台
包括但不限于高质量文本问答对筛选,文本数据清洗,图片问答对审核/修改,
图片问答竞品评测,图片多轮问答,多模态阅读理解,图片文本描述等
一个schema示例:针对多图的多轮问答
业界通用做法:一种“标注场景”对应一种“标注操作台
”
交互友好,一键启动标注任务
平台可支持的标注场景清单有限
同一个场景下的标注操作台能支持的标注内容有限,
无法灵活扩展,无法满足大模型标注场景下各种真实繁
琐的诉求
如百度能支持标注场景清单是固定的
如百度的标注操作台能标注的字段是固定的(问题+答案)
产品特色能力:稳定支持大规模分布式模型训练
Node Node Node Node
TrainOperato
r
1. 机器故障迁移
2. 异常POD驱逐重新调
度
3. 断点续训
Node Node
TaskMang
er
节点发生故障时:
• 主动发现
• 屏蔽节点
• 自动扩容
• 故障迁移
节点/磁盘等突发故障时:
• 训练operator感知pod
运
行状态
• 将异常pod重新调度到
其
他节点
• 恢复训练任务
网络/系统等异常时:
• 任务管理自动重启训练任务
• 恢复历史checkpoint继续训
练
云原生监控
自底向上 3 层机制保障大模型稳定训
练
混合调度资源利用率提升策略
在离线混部及调度方式
qGPU Kubernetes Scheduler
高优任务 低优任务
Pod1
高优任务 低优任务
GPU0
Pod2
高优任务 低优任务
GPU1
低优任务
Pod1 ᵽ�Pod3 ᵽ�Τ GPU
spread
binpack
ᵽ�Pod2 ᵽ�Τ GPU
高优 Pod1
低优 Pod2
低优 Pod3
占有GPU
出让GPU
suspend
suspend
run imm till done…
resume
resume
高优 Pod1提交任务
默认20tick/可配软件调度周期
时间
低优 Pods 使用fix-share/burst调度策略
IDLE .. for 100tick
• 高优任务 平均分配 保证负载均衡
• 低优任务 尽量填满 保证资源利用率
• 支持在线 100% 抢占
• GPU利用率的极致提高
产品特色能力:潮汐调度
GPU1
推理任务 推理任务
GPU0
推理任务 推理任务
GPU0 GPU1
推理任务 训练任务 训练任务 训练任务
工作日白天
1. 分时调度
工作日晚上和节假日将训练任务scale到推理卡,
实现推理卡闲暇时段利用率30%->90%
GPU0
推理任
务
推理任务
GPU0 GPU1
推理任务 训练任务
突发业务流量, 服务自动扩容
2. 抢占调度
训练任务 训练任务
GPU1
推理任务 推理任务
推理任务
推理任务
推理任务
GPU0 GPU1
GPU0节点服务低负载
3. 弹性伸缩调度
训练任务 训练任务
训练任务 训练任务 训练任务
训练任务
基于调度方案, 以分时,抢占, 弹性伸缩等调度策略, 极致利用100%算力资源
1. 分时调度: 根据白天和晚上推理业务场景变化, 自动将训练任务调度到推理卡上,实现推理卡闲暇时段利用率
30%->90%
2. 高低优抢占调度: 针对上下班高峰等突发流量, 自动伸缩推理服务, 抢占训练卡资源, 将算力投入到更重要的
生产业务中
3. 负载,请求,延迟等弹性伸缩调度: 将训练任务自动伸缩到低负载训练和推理卡, 实现集群算力持续高效运行
推理任务
面对突发流量, 推理抢占训练算力, 将算
力资源优先保障正常生产
GPU0 GPU1
面对流量波谷,训练自动伸缩到低负载推理节
点,实现集群算力持续高效运行
面向DeepSeek提供行业领先的推理加速能
力
针对 「DeepSeek-R1/V3 满血版」模型,TI平台通过自主研发的加速引擎
提供
「量化降本+并行增效」双重优化,实现性能与能效的协同跃升。
加速
技术
MTP 并行解
码
MTP(Multi-Task Parallel Decoding)单
步
并行生成多个token提升生成速度
低比特量化
采用更低精度的量化技术,减少
存储空间和计算量,单机可部署
加速
效果
TTFT 缩短1
倍
优化高并发场景下的首字延时
(TTFT,Time To First Token)
QPS 提升3
倍
提升单位时间内处理请求数
提高吞吐量(QPS,Queries Per Second)
并发上限提升4倍
提升单节点部署支持的
最大并发数
显存占用缩小1倍
量化加速,大幅减少单机模型权
重显存占用
注意:以上数据均为特定实验环境下(输入1k/输出3k)的测试结果
产品特色能力:支持三阶段模型评测,保障模型效果
难例问题 问答应用
难例问题
输入问题
推理任务
1 轻量体验 – 效果无大偏差
• 方式:边迭代边自测
• 数据:用难例问题
• 用户:算法人员
2
客观评测 – 初步判断效果
• 方式:阶段性批量测
• 数据:用开源评测集
• 用户:算法人员
开源评测集 评测任务
模型checkpoint
生成答案
模型checkpoint
生成评测报告
一键勾选
3 主观评测 – 反馈真实效果
• 方式:发布前人工测
• 数据:用难例+自定义问题
• 用户:业务人员
自定义问题
自动合并
生成结果
人工标注
模型
结果打分
继续训练
继续训练
反馈模型效果
03 标杆案例
某头部无人机企业-大规模多机多卡训练
实验室数据仅供参考
大模型精调案例
产品方案
泛互的典型应用场景:
场景说明:
基于开源/腾讯商用大语言模型精调专属模型
典型用户画像:
有大模型算法团队,具备通过预训练或精调基底模型迭代出满足
业务指标要求模型的能力
缺少能够搭建算力纳管调度,数据存储管理的工程人员
方案说明:
在大语言模型精调场景中,面向算法开发工程师,提供涵盖数据管理、
模型训练、评估测试、服务部署全流程的一站式服务。提供开箱即用
的精调工具链,让算法人员专注于模型效果提升, 提升精调效率
优势点:
可实战的数据构建能力:针对大模型精调提供3类全开源,可扩展的
数据构建pipeline,同时提供30+数据过滤,改写方法
灵活的多模态标注:灵活配置自动解析数据schema,自动生成多种
大模型标注场景
稳定的任务调度:故障节点自动隔离,任务自动重试,支持单任务
2~3个月持续运行
调度策略:提升小资源任务的并发处理能力,降低碎片化
交换机 H800 * 8 GPU服务器
数据中心
平台层
TI-ONE 训练平台
IaaS层
TKE
COS
TurboFS
HCC高性能计算集群
VPC网络 星脉RDMA网络
标杆案例 – 某互联网金融客户
客户背景 整体架构
涨跌分析 盘后总结
应用场景
年报问答 基金问答
中台应用 智能搜索 智能编排
金融行业大模型
应用于某客户APP客服“i问财”,主要用来训
练投顾、投研领域文本生成,对话大模型 客服助手 智能尽调
业务层 量化投资 代码助手
专业会话 数据分析
方案效果
模型层
独有的纳管模式,快速将云服务器接入,享受
训练平台稳定,高效的任务调度能力
高稳定性任务调度,故障节点自动隔离,任务
自动重试,稳定支持单任务2~3个月持续运行
灵活的任务调度策略配置,提升小资源任务的
并发处理能力
完善的监控指标告警体系,简单配置,实时了
解任务运行状态和算力资源健康状况,提升资
源利用率 硬件
基础设施
推理加速案例
产品方案 标杆案例 – 某互联销售管理公司
泛互行业的典型应用场景:
场景说明:
提供toB智能客服、商品识别、 AI面试等Saas服务的模型推
理 场景
面向C端数据进行内容审核等AI应用的模型推理场景
典型用户画像:
业务需要高精度AI模型赋能
AI模型部署规模在10卡-数百卡之间
无专门研究AI加速团队,希望通过外部能力降本增效
方案说明:
在CV、NLP、OCR等模型推理场景中,提供一键式加速和弹性服务
能力,助力客户降本增效。
优势点:
推理加速性能强大:使用TI-ACC加速工具,针对CV、NLP、以及
OCR TOP100模型相比原生框架性能提升2倍以上
弹性服务功能丰富:支持基于资源和业务请求量等指标的弹性自
动扩缩容、混合弹缩及定时弹缩,保障线上业务稳定性
客户背景
客户为AI商品识别云服务提供商,商品识别业
务 场 景 对 识 别 精 度 要 求 较 高 , 使 用 了
Detectron2框架;
推理服务器有一定规模,但没有专门人力研发
模型推理加速。
客户痛点
整体耦合,粗粒度力度扩展,资源利用率低
本身使用Detectron2框架、Python部署,
高精度模型推理时延较高,希望低门槛接入
优化
服务调用存在固定波峰波谷期,但没有弹性
伸缩机制
方案效果解决方案
业务逻辑与模型服务解耦,独立分布部署,按
需独立扩容
TI-ACC推理加速,提升模型推理性能,提高吞
吐
异步服务架构升级,提高实时性
结合TI推理服务定时弹性伸缩能力,消峰填谷
轻量化接入:一键式模型推理加速,然后将加
速后模型部署为在线服务,通过公网API接口调
用的方式对接自身业务应用
模型性能:平均推理延迟降低3-4倍,QPS提升
2-3倍
用户成本:使用低成本T4卡替换高配V100卡
SLA不变,降低月成本降低,年成本降低
54W,用户成本降低50%+
感谢倾听