车万翔
哈工大计算学部人工智能学院
社会计算与交互机器人研究中心(HIT-SCIR)
2025年2月28日
大模型原理、技术与应用
从GPT 到 DeepSeek从GPT 到 DeepSeek
为什么是语言?
大模型 又称 大语言模型(Large Language Models)
语言 是人类交流思想、表达情感最自然、最深刻、最方便的工具
“语言是继真核细胞之后最伟大
的进化成就”
—— 社会生物学之父爱德华·威尔逊
“语言本身就是人类有史以来最
大的技术发明”
—— 詹姆斯·格雷克《信息简史》
人类历史上大部分知识是以
语言文字形式记载和流传的
运算智能
能存储会计算
感知智能
能听会说能看会认
认知智能
能理解会思考
什么是自然语言处理?
自然语言 指的是人类语言,特指 文本符号 ,而非语音信号
◼ 自然语言处理(Natural Language Processing,NLP)
◼ 属于 认知智能 是人类和动物的主要区别之一
用计算机来 理解 和 生成 自然语言的各种理论和方法
需要更强的 抽象 和 推理 能力
“自然语言处理是人工智能皇冠上的明珠”
自然语言处理成为 制约人工智能取得更大突破和更广泛应用的瓶颈
“如果给我10亿美金,我会建造一个
NASA级别的自然语言处理研究项目”
——美国双院院士、世界知名机器学习专家
Michael I. Jordan
“下一个十年,懂语言者得天下”
——美国工程院士、微软前全球执行
副总裁沈向洋
“深度学习的下一个大的进展应该是
让神经网络真正理解文档的内容”
——诺贝尔奖得主、图灵奖得主、
深度学习之父Geoffrey Hinton
“深度学习的下一个前沿课题是
自然语言理解”
——图灵奖得主、Meta AI负责人
Yann LeCun
自然语言处理的发展历史
自然语言处理技术已经经历了 五次范式变迁
小规模专家知识
1950~1990
浅层机器学习算法
1990~2010
深度学习
2010~2017
2023~2024
大模型
预训练语言模型
2018~2023
GPT
◼ 采用 语言模型 预训练任务
◼ 语言模型
◼ 计算一个句子在语言中出现的概率
◼ 或给定上文,预测下一个词出现的概率
Generative Pre-trained Transformer,OpenAI 2018
◼ 哈工大位于____ [知识]
◼ 我在水果店看到了苹果、香蕉、____ [语义]
◼ 小明打了小红,然后她____ [推理、指代]
◼ 我一定推荐给朋友看,这部电影真是____ [情感]
◼ ……
语言模型学到了什么?
预训练阶段
GPT
◼ 使用建模能力更强的 Transformer 模型
◼ 在目标任务上精调整个 预训练 模型
◼ 接入的下游任务模型可以非常 简单
三大创新
开启了自然语言处理 预训练模型 时代
精调阶段
未标注文本 语料库
模型训练数据标注
模型
预训练模型
精调
Fine-tune预训练
Pre-train
GPT-3:大模型早已有之
◼ Language Models are Few-Shot Learners, OpenAI & Microsoft 2020
◼ 1750亿参数,模型太大 无法精调
◼ 为不同的任务设计相应的“提示语”
GPT-3 代码生成示例
下面文本的情感是:
这本书写得很好的情感是 ????
任务描述
问题
◼ 无需训练,便可完成“文本”生成 任务
◼ 如:问答、文章续写、网页生成、自动编曲等
示例(In-context)我喜欢这部电影的情感是褒义
GPT-3的不足
GPT-3测试样例
Question: Which is heavier, a toaster or pencil?(烤箱和铅笔哪个更重?)
GPT-3 : A pencil is heavier than a toaster. (铅笔比烤箱重。)
Question: How many eye does my foot have? (我的脚有几只眼睛?)
GPT-3 : Your foot has two eyes. (你的脚有两只眼睛。)
GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低%!
预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的
瓶颈,故在深层次语义理解上与人类认知水平还相去较远!
缺乏
知识推理
与可解释性
解决方案:ChatGPT (OpenAI, )
◼ 模型规模足够大(>60B?)
◼ 预训练数据足够多
◼ 在代码数据上继续预训练
ChatGPT 的关键核心技术(1/3):无监督学习
大规模预训练语言模型,涌现出推理能力
模
型
ChatGPT 的关键核心技术(2/3):有监督学习
◼ 将各种任务形式进行统一(指令+输
入→输出)
◼ 在众多(成千上万)任务的标注数据
上精调语言模型
◼ 模型能够处理未见任务(Zero-shot)
使大模型更好遵循人类指令:指令精调(Instruction Tuning)
ChatGPT 的关键核心技术(3/3):强化学习
◼ 降低人工标注难度
◼ 生成的结果更多样
◼ 能利用负面的标注结果
将大模型进一步向人类期望对齐:人类反馈强化学习(RLHF)
引爆“百模大战”
Open Resource
Model Source
Close Resource
Encoder-only
Encoder-Decoder
Decoder-only
2020
2021
2022
2023
2024
GPT3
InstructGPT
ChatGPT
GPT4
2025
O1
CriticGPT
2019
2018
BERT
Ernie
RoBERTa
ALBERTDistillBERT
Electra
DeBERTa
SpanBERT
DeBERTav3
BGE
E5Ada-002
text-
embedding-3
T5BART
mT5
umT5
GLM
mT0
CPM-2
T0
Switch
ChatGLM
Tk
FLanUL2
UL2
FlanT5
ST-MoE
GPT
GPT-2
Transformer
XLNet
DeepSeek-v3
Step-Reason-mini
Skywork-o1
GLM-Zero
FlanPaLM
OPT
BLOOM
WeLM
Skywork
Jurassic-1
Gopher
Chinchilla
Baichuan
XGLM
LLaMA
BLOOMz
DeepSeek-LLM
Vicuna
Alpaca
Baichuan2 InternLM
Jurassic-2
Qwen Huozi
Moss
PaLM2
Yi
Mixtral
Sparrow
DeepSeek-v2
Step-1InternLM2
OLMo
LLaMA3
Mistral Large
Step-2Mistral Large 2
Qwen2
OLMo2
LLaMA2 Gemini
Mistral
GPTNeoX PaLM
MPT
Gemini-Thinking Gemini-2
InternLM3 DeepSeek-R1
QwQ
SimCSE
Model Type
CNN MLP RNN
DeepSeek-R1 的横空出世
Nature News 报道:“中国的廉价且开源的大型
语言模型震撼了科学界!”
由中国研发的DeepSeek-R1大模型是一种既具
备 高性价比 又完全 开源 的 “推理” 模型,
其性能可与OpenAI的 o1模型媲美。通过模仿
人类推理过程,这些模型能够逐步生成响应,在
解决科学问题时表现得比早期大模型更为出色,
可能对科研工作产生深远的影响…
从DeepSeek-V1到R1
发布时间:
核心技术:类LLaMA架构
+SFT+RLHF
训练数据量:2T
训练稳定程度:不稳定
最大参数量:67B
发布时间:
核心技术:基于bias 负载均衡
+ MTP (多词元预测)
训练数据量:14T
训练稳定程度:稳定
最大参数量:671B(激活37B)
训练成本:2788KGPU小时/
$
发布时间:
核心技术:MoE (更多共享专家)
+ MLA (多头潜在注意力)
训练数据量:8T
训练稳定程度:较稳定
最大参数量:236B(激活21B)
训练成本: GPU小时
发布时间:
核心技术:只使用RL学会推理
能力 + 将RL引入基模型架构
训练稳定程度:很稳定
最大参数量:671B(激活37B)
发布时间:
核心技术:SFT学习推理格式
+ RL学习推理能力
训练稳定程度:很稳定
最大参数量:671B(激活37B)
V1
V2
V3
R1-Zero
R1
★ GRPO (DeepSeekMath, )
- 无须价值网络
- 提高学习稳定性
- 降低学习开销
DeepSeek的核心贡献
只使用强化学习(RL),模型自主
学习到推理能力,性能接近o1模型
训练、推理速度更快,远超o1类
模型,极大节约硬件成本
DeepSeek坚持开源精神,开放了
R1模型及其蒸馏出的子模型
只用RL习得推理能力
自然语言处理的发展历史
小规模专家知识
1950~1990
浅层机器学习算法
1990~2010
深度学习
2010~2017
2023~2024
大模型
预训练语言模型
2018~2023
2025~?
推理
DeepSeek-R1 引发自然语言处理的 第六次范式变迁
推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、
判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。
推理采用的核心技术
思维链(Chain-of-Thought, COT)
◼ 一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来
◼ 早期的思维链能力是模型自发“涌现”的
(a) 少样例推理 (b) 少样例思维链推理 (Wei et al., 2022)
(c) 零样例推理 (d) 零样例思维链推理 (Kojima et al., 2022)
问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少
乒乓球?
答:11个。
问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。
小华的球中有多少蓝色?
答:
(输出)8个。
问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?
答:小明一开始有5个乒乓球,在买了2筒后增加了2乘3等于6个,加起来一共11个。
问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的
球中有多少蓝色?
答:
(输出)16的一半是8个,8个的一半是4个。
问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。
小华的球中有多少是蓝色的?
答:
(输出)8个。
问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。
小华的球中有多少是蓝色的?
答:让我们一步一步地思考。
(输出)16的一半是8个,8个的一半是4个。
只用RL习得推理能力
DeepSeek-R1-Zero
R1-Zero核心技术
全新的技术栈:基于结果的极简版强化学习(只将规则获得的准确率作为奖励)
◼ 强化学习框架:使用 GRPO(Group
Relative Policy Optimization)作
为强化学习框架
◼ 奖励模型:结果/规则奖励,奖励分为
准确率奖励(accuracy rewards)和
格式奖励(format rewards),确保
模型输出正确的答案格式和推理过程
全新的技术栈
R1-Zero核心技术
GRPO(Group Relative Policy Optimization)
利用当前策略模型进行多次采样,并使
用平均奖励值近似价值函数,从而避免
了对价值函数的显式训练,这样做既减
少了计算开销,又避免了价值函数训练
的 困 难 , 提 高 了 模 型 学 习 的 稳 定 性
【DeepSeekMath, 】
R1-Zero实验结果
性能提升:AIME 2024 的 pass@1 分数:% → %,接近 OpenAI-o1-preview性能提升
RL不需要复杂的算法,简单的GRPO就够用
RL需要大量的数据:R1-Zero训了8000个
步骤,如果每个步骤 采样的数据量为1024 ,
那也到了8M级别
RL训练不需要过程奖励,结果奖励足够
性能提升:AIME 2024 的 pass@1 分数:% → %,接近 OpenAI-o1-preview
R1-Zero实验结果
性能提升
◼ 强化学习的可扩展性:随着强化学习步
骤数增加,模型的性能逐步增强
性能提升:AIME 2024 的 pass@1 分数:% → %,接近 OpenAI-o1-preview
R1-Zero实验结果
◼ 强化学习的可扩展性:随着强化学习步
骤数增加,模型的性能逐步增强
◼ 强化学习的Aha时刻:随着强化学习步
骤数增加,会在某一步突然涌现出反思
/自我评估机制
性能提升
R1-Zero实验结果
强化学习的长思维链自动拓展
◼ 随着强化学习的步骤数增加,可以实
现思维链长度自然增长
DeepSeek-R1
提升推理的规范性和泛化性
R1总路线
冷启动(Cold Start):为了解决 DeepSeek-R1-Zero 的可读性差(如推理格式性差、语言混杂等)
和训练不稳定的问题,DeepSeek-R1引入了少量冷启动数据进行预训练,这些数据包含长CoT样本。
冷启动(Cold Start)
◼ 使用长 CoT 示例进行少样本提示
◼ 直接提示DeepSeek-R1-Zero 模型生成带反思和验证的详细答案
◼ 收集 DeepSeek-R1-Zero 的可读格式输出并经人工标注者后处理
收集方法包括
R1总路线
包括两个强化学习阶段和两个监督微调阶段。多阶段训练
◼ 第一阶段通过冷启动数据进行监督微调(SFT)
◼ 第二阶段进行推理导向的强化学习(RL)
◼ 第三阶段通过拒绝采样(rejection sampling)生成新的监督微调数据(SFT)
◼ 第四阶段再次进行强化学习以优化模型在所有场景下的表现(RL)
基础模型
Deepseek-
R1-Zero
SFT
SFT推理 据
RL
RL推理 据
Deepseek-
R1-Middle
SFT
SFT推理及
通用 据
RL
多场景
RL 据
Deepseek-
R1
R1总路线
◼ AIME 2024 的 pass@1 分数: → %,接近 OpenAI-o1
◼ Long CoT Warmup 能带来更好的可读性。DeepSeek-R1-Zero的思考空间很混沌, 通过SFT初始化,
能够让思维空间更加像人类的思维增加稳定性
性能提升
极致的模型架构优化
主要模型架构优化技术
◼ DeepSeekMoE(Mixture of Experts)
◼ 多头隐含注意力(Multi-head Latent Attention, MLA)
◼ 多词元预测(Multi-Token Prediction, MTP)
算法优化
◼ FP8混合精度训练
◼ DualPipe
◼ 跨节点All-All通信
Infra优化
算法优化——DeepSeekMoE
◼ 增加模型容量
◼ 节约计算资源
MoE每生成一个词元激活不同的参数
◼ 更多专家(256个)
◼ 每次选择更专家(8个)
◼ 共享专家(1个)
DeepSeekMoE的特点
算法优化——多头隐含注意力(MLA)
◼ 将Key-Query-Value (KQV)矩阵映射到
低维隐空间
KQV降维
◼ 提高推理速度
◼ 支持更长上下文以及更大的batch
减少KV-cache的存储空间
算法优化——多词元预测(MTP)
◼ 提高推理速度
◼ 提高训练数据的利用率
◼ 提高模型预测能力
一次预测多个词元
Infra优化——FP8混合精度训练
Component DeepSeek-V2 (BF16) DeepSeek-V3 (FP8)
Query/Key Compression dc=4dh dc=3dh
KV Cache Storage BF16 FP8
RoPE Application Full Precision Decoupled, FP8
Attention Computation BF16 FP8 + FP32 Accumulation
Infra优化——DualPipe
如何更好地进行多机并行,减少并行气泡?
◼ 将每个块划分为4个组件:注意力、all-all调度、MLP、all-all组合
更均匀+细粒度的划分(计算与通讯几乎可以完全并行)
◼ 可同时从流水线两端提供微批次,并且大部分通信可以完全重叠
双向流水线调度
样本1 样本20
Infra优化——跨节点All-All通信
方法: 跨节点 GPU 通过 IB 通信,节点内通过 NVLink 通信,每个词元最多调度到 4 个节点,从而减少 IB
通信量。同时使用warp技术做调度和组合的优化
方法
结果:每个词元能在不产生 NVLink 额外开销的情况下,在每个节点上平均选择 个专家。即每个token
扩展到最多 13 个专家(4 个节点 × 个专家),而通信成本不变
结果
NVLink相连的GPU节点 NVLink相连的GPU节点
InfiniBand
all-all调度
1️⃣
NVLink相连的GPU节点 NVLink相连的GPU节点
InfiniBand
all-all组合
1️⃣
2️⃣
3️⃣
2️⃣
3️⃣
Warp
Warp
Warp
如何更好地进行all-all调度, all-all组合?
DeepSeek模型优化效果
DeepSeek-V3的训练成本约为(规模甚至更小)的1/10
模型名称 参数量/个 训练设备 训练卡时/×106小时 训练成本/×106美元
Llama 65B A100-80GB,2048块 ≈ ≈
Llama 70B A100-80GB,约2000块 ≈ ≈
Llama 70B H100-80GB, 未知 ≈ ≈
Llama 405B H100-80GB,约16000块 ≈ ≈
Llama 70B H100-80GB, 未知 ≈ ≈
DeepSeek-V3 671B H800-80GB,2048块 ≈ ≈
大模型的应用
OpenAI 给出的 6 条 Prompt 设计原则
1. Write clear instructions
撰写清晰的指令
2. Provide reference text
提供参考文本
3. Split complex tasks into simpler subtasks
将复杂的任务拆分为更简单的子任务
4. Give the model time to "think”
给模型时间“思考”
5. Use external tools
使用外部工具
6. Test changes systematically
系统地测试变更
Prompt 工程
一、撰写清晰的指令:在查询中包含详细信息,以获得更相关的答案
参数模糊,模型无法给出明确具体的方案
无输出格式与风格要求,礼貌程度有限
上下文缺失,未说明身份/对象,无法适配沟通场景
Tips:
明确角色定位
(Who)
具体任务目标
(What)
必要背景信息
(Why)
格式/语气要求
(How)
关键 据指标
(When/Where)
一、撰写清晰的指令:使用分隔符标识输入的不同部分
Tips:
加入明确的分隔符区分输入中的不同部分,如“原文”、“待插入段”等
可以使用标签作为分隔符包裹字段,如<insert>公司承诺…</insert>
统一指令与输入内容中对分隔符的描述,如: 将X插入Y中: X:abc Y:def
缺少明确的分隔符标识不同字段
一、撰写清晰的指令:提供示例
Tips:
对于内容与格式要求相对抽象化、难以直接描述的问题,可以通过示例表达需求
提供尽可能多的示例,示例过少会限制回复的多样性,陷入给定示例的特定模式
二、提供参考资料
Tips
可提供的资料包括:
• 技术类任务:提供核心概念、原理说明
• 行业分析类任务:提供市场 据、公司案例
• 学术类任务:提供研究论文、实验 据
• 趋势预测类任务:提供历史 据、专家观点
对于知识类问答模型可能存在幻觉
三、分解复杂问题
Tips
• 任务分解从宏观到微观,先从宏观上拆
分出骨干子问题,再从微观上针对每个
子问题继续拆分或解决
• 中间步骤(如生成的标题结构)如不符
合预期,可以人工干预加以修正
结构松散,缺乏逻辑和层次化关系
重要板块缺失,缺少未来工作与总结
四、使用外部工具
Tips
• 可以借助代码辅助完成 值计算等推理
类问题
• DeepSeek工具调用背后的机制不是很
明确,建议本地化运行加以确认
结构松散,缺乏逻辑和层次化关系
精度不够导致最终
计算结果错误
相同程序,模型输出的错误结果
五、给模型时间思考
Tips
• ChatGPT建议的反思式提示未必对
DeepSeek有效,提示策略也在随着模
型的改变而改变
• 模型可能对于自身结果存在较大的倾向
性,泛化的反馈难以发现问题
• 明确的反馈又需要用户亲自验证,限制
了该策略的有效性
领域应用:RAG vs. SFT
领域应用 Prompt工程
判断和目
标的差距
RAG
检索增强生成
SFT
有指导微调
知
识
不
足
风
格
不
对
RAG 检索增强生成
检索器
相关文档查询
特定数据库
问题
提问
检索器
问题 + 生成
大模型作
为生成器 答案
智能体(Agents)
工具学习 向量数据库
人工智能驱动的科学研究具身智能
单体智能
Autonomous Agents
组织
协作与对抗
社会模拟
群体智能
Agents
自然语言处理正在由 面向自然语言的处理 转变为 基于自然语言的智能
小型化
个性化
角色化
定制化
隐私性
安全性
推广大模型应用
HIT-SCIR 大模型方向规划
应用领域
功能增强
模型训练
能力增强
金融 医疗 教育 航天
智能体 具身智能 决策机
情感 个性化 轻量化 价值观对齐
推理 可解释性 多模态 鲁棒性 攻击防御
数据归因 数据合成 模型架构设计 增量预训练
“活字”对话大模型
自主研发的开源可商用大规模预训练语言模型
2023年3月6日发布哈工大
《ChatGPT调研报告》(84页)
活字:基于BLOOM-7B进行指令微调
◼ 更好的指令遵循能力,支持生成和理解代码以及表格
◼ 安全性指标达到%,甚至超越了ChatGPT(%)
活字:基于活字,通过人类反馈的强化学习(RLHF) 训练
◼ 回答更丰富,更符合人类偏好
◼ 开源了首个中文RLHF数据集
活字:基于Mixtral-8x7B进行中文扩词表和指令微调
◼ 高达32K上下文长度,支持读取更长的文本
◼ 具有丰富的中英文知识和强大的数学推理、代码生成能力
珠算代码大模型
大模型 1 比特量
化,通过知识蒸
馏,模型参数压缩
90%以上,能力保
留83% 发表于机器学习领域顶会NeuraIPS(CCF A)
提出基于去噪模型
的投机解码方法,
生成速度提升至2倍
以上
发表于NLP领域顶会EMNLP(Tsinghua-A,CCF B)
优化预训练微调数据
构建与筛选策略,
Code与NL能力均达
到同级最优
提出多语言程序思维
链策略,数值计算等
推理能力相比
ChatGPT提升%
发表于NLP领域顶会EMNLP(Tsinghua-A,CCF B)
Python
R
C++
Java
JS
MultiPoT
更轻 更快
更强 更有用
珠算代码大模型演示
基于大模型的精神健康计算系统
巧板
◼ 面向K12中小学生群体和家长、教师
群体的日常共情对话陪伴
◼ 四大功能:共情陪伴、情绪疏导、角
色化陪伴和中国优秀文化熏陶
巧环
◼ 面向轻度心理疾病的青少年和心理咨
询师初期训练的心理咨询系统
◼ 基于心理学引导策略进行心理疾病溯
因分析
“本草”医学大模型
技术成果发表5篇论文、论文累计他引超200次、申请7项专利、申请1项软著
◼ 中国首个医学大模型
◼ 首次提出知识微调(Knowledge-tuning)方法,
被讯飞、华为、腾讯等行业大模型广泛采用
◼ 在GitHub获得超过+ 星标
◼ 入选中国大模型TOP70榜单第27名,仅有的3个
高校大模型之一
✓ 德本咨询(DBC)、中国社会科学院信息化研究中心(CIS)、
《互联网周刊》(CIW) 等组织严格评选并发布了“2023
中国大模型TOP70”榜单
人机融合医疗会诊平台
理论创新:辩论式复杂问题决策机理论
技术创新:
◼面向诊疗的专病大模型
◼面向诊疗复杂问题决策的多智能体协同技术
◼面向可解释性增强的多智能体自组织系统
人机融合会诊人类医生会诊
国家重点研发计划项目,在临床诊断测试中实现人机融合组超过全人类医生组,30多家医院试用
软硬一体机器脑系统
基于自研的具身规划模型、具身执行模型,构建了模块化、高扩展、可通用的机器脑软件系统
同时设计了配备关键传感器和计算单元的硬件头部系统,可安装于机械臂、人形机器人、轮式机器
人等各类机器人上
具身感知 具身规划 具身执行
实现机器脑在各场景、各类机器人上的无缝迁移
机器脑系统效果展示
展厅机器人
机器脑亮相哈尔滨亚冬会 机器脑自主完成长序列复杂任务——乘电梯下楼取咖啡
人工智能未来发展方向
自然语言处理的发展历史
小规模专家知识
1950~1990
浅层机器学习算法
1990~2010
深度学习
2010~2017
2023~2024
大模型
预训练语言模型
2018~2023
2025~?
推理
?
通往AGI之路
以大语言模型为基础,拓展语言之外的认知能力
Bisk等人(2020)将语言处理划分为5级“世界范围”(World Scope,WS)
WS5
社会:自组织
WS4
具身:与物理世界互动
WS3
多模态:听觉、视觉
WS2
网络文本数据
WS1
小规模语料库
现在 未来早期
非交互式
交互式
Level 5 Organizations
Level 4 Innovators
Level 3 Agents
Level 2 Reasoners
Level 1 Chatbots
OpenAI认为实现AGI的5个阶段
/2024/07/16/openais-5-levels-of-super-
ai-agi-to-outperform-human-capability/
总结和展望
自然语言处理被誉为“人工智能皇冠上的明珠”
大语言模型 已成为人工智能的基石
DeepSeek-R1模型 的核心贡献
◼ 只用RL习得推理能力:如何获得数学和编程以外的推理能力?
◼ 极致的模型架构优化:Transformer是最优的模型架构么?
◼ 开源模型及蒸馏模型:训练代码以及数据是否开源?
自然语言处理正在由 面向自然语言的处理 转变为 基于自然语言的智能
未来方向:模型是否以及如何具有 创新 能力?
哈工大计算学部人工智能学院(
Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51
Slide 52
Slide 53
Slide 54
Slide 55
Slide 56
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
Slide 63
Slide 64
Slide 65
Slide 66
Slide 67