智库文档所有分类

模型训推：从算力优化到应用落地.ppt

下载

来自星星的小胖子

19页 | 2.36MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

模型训推:从算力优化到应用落地通用性解决多个任务的能力模型能应用于不同的数据集或任务模型在从未见过的数据上能表现出良好的性能能力泛化性对新数据的适应能力实用性应用时的可用性和效率模型能以合理的时间和资源快速处理数据并做出正确的决策专家系统 1968 知识表征 1974 XCON 1980 语义网络线路图 1998 AlexNet 2012 Transformer 2017 GPT3 算力瓶颈 1990 计算机视觉 1976 深度学习2006 条件随机场 2001 图神经网络 2005 BERT2018BP算法 1986 AlphaF old 2 AI进入 “大模型”时代达特茅斯会议·1956年8月发起，提出了“人工智能” 这一名词，汇集了一批日后AI领域最重要的学者感知机 1957 GPT-4 ChatGPT 达特茅斯会议 1956 深蓝击败卡斯帕罗 1995 支持向量 1995 NLP神经网络 2013 ResNet 2015 AlphaGo战胜李世石 2016 联邦学习2016 行业背景：Scaling Laws 带来质变，AI 进入大模型时代业务挑战：模型构建与应用仍存在诸多挑战大规模训练不稳定大规模模型训练需耗费大量GPU 资源且训练周期长，对训练平台的稳定性、故障隔离性、自动容错性等底座能力，以及任务长时间成功运行考验极大模型欠缺行业知识通用领域大模型百花齐放，但都不具备特定行业的独有知识和任务处理能力，欠缺行业属性导致无法落地实际业务资源调度管理难采购的算力资源有限，使用诉求远超可用算力，需要高效的算力资源调度管理系统，灵活分配算力使用，减少节点资源碎片，提高资源使用率数据准备投入大算法人员要投入超过60% 时间进行高质量数据准备，针对大批量数据，进行数据清洗，标注，特征工程，等一系列预处理核心需求：模型开发全生命周期场景选型模型构建部署应用应用场景资源采购业务形态数据评估资源评估环境搭建服务开通交付方案项目排期训练数据准备模型训练知识挖掘+增强数据清洗+切块向量库建设+维护训练平台搭建大模型-无监督训练大模型-有监督训练深度学习训练机器学习训练训练框架加速脱敏合规模型评测模型管理服务发布性能评测效果评测模型注册模型发布推理框架加速推理服务部署应用联调应用发布 TI-ONE覆盖环节腾讯云TI平台腾讯云TI平台（Tencent Cloud TI Platform）是基于腾讯先进AI能力和多年技术经验，面向企业提供的全栈式人工智能开发服务平台，致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型优化、模型评估、模型部署、到AI应用开发的产业+AI落地全流程链路，帮助用户快速创建和部署AI应用，管理全周期 AI解决方案，从而助力政企单位加速数字化转型并促进AI行业生态共建。产品概述应用和解决方案开发者基于腾讯云TI平台的开放能力，结合行业特点构建应用解决方案。充分发掘AI价值，助力各行各业数字化转型泛政府产业AI应用泛互联网AI应用金融产业AI应用企业AI应用机器学习平台 TI-ONE 面向数据科学家，提供从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持 AI应用服务平台 TI-Matrix 面向AI应用开发者，快速接入模型、数据和智能设备。提供模型部署、应用工作流编排、云边端调度等功能，快速构建智能应用腾讯云TI平台 Tencent Cloud TI Platform 算法和模型开发者数据服务提供商智能设备提供商算法模型算法服务数据采集数据标注 IPC 国标平台计算资源网络资源存储资源容器平台基础设施十大能力中心能力平台训练平台 TI-ONE 应用服务平台 TI-Matrix 管理中心边缘中心应用中心数据中心模型管理自动学习应用编排训练工坊模型部署大模型精调应用场景——一站式大模型精调解决方案 AI建模部署大模型精调  快速试一试：零代码一键部署大模型，网页问答体验推理效果数据  精调训练：低代码、灵活自定义两种精调模式自由选择评测部署数据中心内置推理加速：全新升级Angel推理加速能力，加速比可达2倍大模型调用：统一的大模型调用API及体验工具，大幅缩短业务接入大模型能力周期模型部署 AI资产管理自研混元大模型  从零训练自主创新的通用大模型  7b 13b 70b 389b不同参数量级自研行业大模型  金融/汽车/医疗，提升垂类任务性能  支持知识增强、实时更新知识库开源大模型  DeepSeek/Llama/baichuan/Qwen等  全面接入主流开源模型数据构建预置3大类精调数据处理pipeline 数据标注 CV，文本类标注工具训练调试训多种训练工具：具备周期调度能力的可视化建模，低门槛深度学习场景化工具，交互式代码开发工具，专业的通用任务调度工具练分布式稳定训练：支持多机多卡大规模训练，故障自动重启续训工镜像制作：基于jupyter的高效自定义镜像制作工具坊训练指标监控：丰富的指标监控及告警，覆盖网络及GPU算力内置训练加速：全新升级Angel训练框架加速能力，性能提升30% 大模型评测：提供轻量体验，客观评测，主观评测的三阶段评测工具 AI框架  Pyspark，pytorch, vllm等通用训练框架  triton,vllm,sglang,pmml等通用推理框架差异化竞争力：数据构建 3大类数据处理 pipeline 100+细分任务的精调配比数据(公有云 ) 灵活开源的 pipeline 代码脚本有监督训练-多轮问答有监督训练-单轮问答无监督预训练覆盖12大类下的100+LLM应用场景文本创作, 开放式问答, 基础语言能力, 对话, 角色扮演, 智能体, 思维链. 阅读理解. 文本理解, 信息提取, 知识挖掘, 代码生成预置数据处理链代码预置Notebook快速开始精调任务无需额外配置加载配比数据根据样本量和任务类型分配配比数据智能分配自动加载开源可扩展开箱即用 pipeline预置5大高质量数据处理环节原始数据分析->数据清洗->数据去重- >prompt优化->训练格式转换超过 100w条预置配比数据每个细分任务类型均预置腾讯自研精调配比数据腾讯：灵活的数据构建pipeline、细致的算法任务分类和智能的数据配比功能业界通用做法：网页式一键勾选启用哪些内置清洗函数交互友好，易上手清洗环节固定、内置清洗函数黑盒，无可扩展性无法满足实战过程中复杂多变的数据构建诉求差异化竞争力：数据标注腾讯：灵活定义数据schema，自动生成多种大模型标注操作台包括但不限于高质量文本问答对筛选，文本数据清洗，图片问答对审核/修改，图片问答竞品评测，图片多轮问答，多模态阅读理解，图片文本描述等一个schema示例：针对多图的多轮问答业界通用做法：一种“标注场景”对应一种“标注操作台 ” 交互友好，一键启动标注任务平台可支持的标注场景清单有限同一个场景下的标注操作台能支持的标注内容有限，无法灵活扩展，无法满足大模型标注场景下各种真实繁琐的诉求如百度能支持标注场景清单是固定的如百度的标注操作台能标注的字段是固定的（问题+答案）产品特色能力：稳定支持大规模分布式模型训练 Node Node Node Node TrainOperato r 1. 机器故障迁移 2. 异常POD驱逐重新调度 3. 断点续训 Node Node TaskMang er 节点发生故障时： • 主动发现 • 屏蔽节点 • 自动扩容 • 故障迁移节点/磁盘等突发故障时： • 训练operator感知pod 运行状态 • 将异常pod重新调度到其他节点 • 恢复训练任务网络/系统等异常时： • 任务管理自动重启训练任务 • 恢复历史checkpoint继续训练云原生监控自底向上 3 层机制保障大模型稳定训练混合调度资源利用率提升策略在离线混部及调度方式 qGPU Kubernetes Scheduler 高优任务低优任务 Pod1 高优任务低优任务 GPU0 Pod2 高优任务低优任务 GPU1 低优任务 Pod1 ᵽ�Pod3 ᵽ�Τ GPU spread binpack ᵽ�Pod2 ᵽ�Τ GPU 高优 Pod1 低优 Pod2 低优 Pod3 占有GPU 出让GPU suspend suspend run imm till done… resume resume 高优 Pod1提交任务默认20tick/可配软件调度周期时间低优 Pods 使用fix-share/burst调度策略 IDLE .. for 100tick • 高优任务平均分配保证负载均衡 • 低优任务尽量填满保证资源利用率 • 支持在线 100% 抢占 • GPU利用率的极致提高产品特色能力：潮汐调度 GPU1 推理任务推理任务 GPU0 推理任务推理任务 GPU0 GPU1 推理任务训练任务训练任务训练任务工作日白天 1. 分时调度工作日晚上和节假日将训练任务scale到推理卡, 实现推理卡闲暇时段利用率30%->90% GPU0 推理任务推理任务 GPU0 GPU1 推理任务训练任务突发业务流量, 服务自动扩容 2. 抢占调度训练任务训练任务 GPU1 推理任务推理任务推理任务推理任务推理任务 GPU0 GPU1 GPU0节点服务低负载 3. 弹性伸缩调度训练任务训练任务训练任务训练任务训练任务训练任务基于调度方案, 以分时,抢占, 弹性伸缩等调度策略, 极致利用100%算力资源 1. 分时调度: 根据白天和晚上推理业务场景变化, 自动将训练任务调度到推理卡上,实现推理卡闲暇时段利用率 30%->90% 2. 高低优抢占调度: 针对上下班高峰等突发流量, 自动伸缩推理服务, 抢占训练卡资源, 将算力投入到更重要的生产业务中 3. 负载,请求,延迟等弹性伸缩调度: 将训练任务自动伸缩到低负载训练和推理卡, 实现集群算力持续高效运行推理任务面对突发流量, 推理抢占训练算力, 将算力资源优先保障正常生产 GPU0 GPU1 面对流量波谷,训练自动伸缩到低负载推理节点,实现集群算力持续高效运行面向DeepSeek提供行业领先的推理加速能力针对「DeepSeek-R1/V3 满血版」模型，TI平台通过自主研发的加速引擎提供「量化降本+并行增效」双重优化，实现性能与能效的协同跃升。加速技术 MTP 并行解码 MTP(Multi-Task Parallel Decoding)单步并行生成多个token提升生成速度低比特量化采用更低精度的量化技术，减少存储空间和计算量，单机可部署加速效果 TTFT 缩短1 倍优化高并发场景下的首字延时 (TTFT,Time To First Token) QPS 提升3 倍提升单位时间内处理请求数提高吞吐量(QPS,Queries Per Second) 并发上限提升4倍提升单节点部署支持的最大并发数显存占用缩小1倍量化加速，大幅减少单机模型权重显存占用注意：以上数据均为特定实验环境下(输入1k/输出3k)的测试结果产品特色能力：支持三阶段模型评测，保障模型效果难例问题问答应用难例问题输入问题推理任务 1 轻量体验 – 效果无大偏差 • 方式：边迭代边自测 • 数据：用难例问题 • 用户：算法人员 2 客观评测 – 初步判断效果 • 方式：阶段性批量测 • 数据：用开源评测集 • 用户：算法人员开源评测集评测任务模型checkpoint 生成答案模型checkpoint 生成评测报告一键勾选 3 主观评测 – 反馈真实效果 • 方式：发布前人工测 • 数据：用难例+自定义问题 • 用户：业务人员自定义问题自动合并生成结果人工标注模型结果打分继续训练继续训练反馈模型效果 03 标杆案例某头部无人机企业-大规模多机多卡训练实验室数据仅供参考大模型精调案例产品方案泛互的典型应用场景：场景说明：  基于开源/腾讯商用大语言模型精调专属模型典型用户画像：  有大模型算法团队，具备通过预训练或精调基底模型迭代出满足业务指标要求模型的能力  缺少能够搭建算力纳管调度，数据存储管理的工程人员方案说明：在大语言模型精调场景中，面向算法开发工程师，提供涵盖数据管理、模型训练、评估测试、服务部署全流程的一站式服务。提供开箱即用的精调工具链，让算法人员专注于模型效果提升，提升精调效率优势点：  可实战的数据构建能力：针对大模型精调提供3类全开源，可扩展的数据构建pipeline，同时提供30+数据过滤，改写方法  灵活的多模态标注：灵活配置自动解析数据schema，自动生成多种大模型标注场景  稳定的任务调度：故障节点自动隔离，任务自动重试，支持单任务 2～3个月持续运行  调度策略：提升小资源任务的并发处理能力，降低碎片化交换机 H800 * 8 GPU服务器数据中心平台层 TI-ONE 训练平台 IaaS层 TKE COS TurboFS HCC高性能计算集群 VPC网络星脉RDMA网络标杆案例 – 某互联网金融客户客户背景整体架构涨跌分析盘后总结应用场景年报问答基金问答中台应用智能搜索智能编排金融行业大模型  应用于某客户APP客服“i问财”，主要用来训练投顾、投研领域文本生成，对话大模型客服助手智能尽调业务层量化投资代码助手专业会话数据分析方案效果模型层  独有的纳管模式，快速将云服务器接入，享受训练平台稳定，高效的任务调度能力  高稳定性任务调度，故障节点自动隔离，任务自动重试，稳定支持单任务2～3个月持续运行  灵活的任务调度策略配置，提升小资源任务的并发处理能力  完善的监控指标告警体系，简单配置，实时了解任务运行状态和算力资源健康状况，提升资源利用率硬件基础设施推理加速案例产品方案标杆案例 – 某互联销售管理公司泛互行业的典型应用场景：场景说明：  提供toB智能客服、商品识别、 AI面试等Saas服务的模型推理场景  面向C端数据进行内容审核等AI应用的模型推理场景典型用户画像：  业务需要高精度AI模型赋能  AI模型部署规模在10卡-数百卡之间  无专门研究AI加速团队，希望通过外部能力降本增效方案说明：在CV、NLP、OCR等模型推理场景中，提供一键式加速和弹性服务能力，助力客户降本增效。优势点：  推理加速性能强大：使用TI-ACC加速工具，针对CV、NLP、以及 OCR TOP100模型相比原生框架性能提升2倍以上  弹性服务功能丰富：支持基于资源和业务请求量等指标的弹性自动扩缩容、混合弹缩及定时弹缩，保障线上业务稳定性客户背景  客户为AI商品识别云服务提供商，商品识别业务场景对识别精度要求较高，使用了 Detectron2框架；  推理服务器有一定规模，但没有专门人力研发模型推理加速。客户痛点  整体耦合，粗粒度力度扩展，资源利用率低  本身使用Detectron2框架、Python部署，高精度模型推理时延较高，希望低门槛接入优化  服务调用存在固定波峰波谷期，但没有弹性伸缩机制方案效果解决方案  业务逻辑与模型服务解耦，独立分布部署，按需独立扩容  TI-ACC推理加速，提升模型推理性能，提高吞吐  异步服务架构升级，提高实时性  结合TI推理服务定时弹性伸缩能力，消峰填谷  轻量化接入：一键式模型推理加速，然后将加速后模型部署为在线服务，通过公网API接口调用的方式对接自身业务应用  模型性能：平均推理延迟降低3-4倍，QPS提升 2-3倍  用户成本：使用低成本T4卡替换高配V100卡 SLA不变，降低月成本降低，年成本降低 54W，用户成本降低50%+ 感谢倾听