科大讯飞 鹿晓亮
让机器学习得更快
深度学习在感知智能中获得巨大成功
面向感知及认知智能的深度学习平台
深度学习平台训练算法并行方式探讨
主要内容
深度学习平台对讯飞超脑计划的支撑
计算智能
感知智能
认知智能
能存会算
能听会说、能看会认
能理解会思考
语音识别的血泪史
1920年代:RadioRex玩具狗
1950年代:Bell Lab Audry系统
6-70年代:DSP、DTW、Viterbi、HMM、DARPA
1980年代:特征提取、大规模语料、DARPA、NIST、Sphinx
1990年代:区分性训练、模型自适应、噪声鲁棒性、HTK
2000年后:更好的区分性训练技术等
深度学习应用于语音识别
像素特征
边缘特征
眼睛 嘴 鼻子
猫 老虎
深度学习应用于语音识别
声
学
模
型
H
M
M
语
言
模
型
识
别
结
果
深度学习应用于语音识别
DNN RNN LSTM
大数据及云计算应用于语音识别
柳传志致辞 周光召致辞 语音云启动仪式
2010年10月28日,“语音云”在业界率先发布,为手机、汽车、智能家电等
终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力
深度学习和大数据的力量
%
2011年1月
基于上线数据
首次更新
% 2010年10月28日
语音云正式发布
% 2012年5月 DNN技术正式上线
95%+
2013年7月
DNN并行训练技术
获得突破,数万小时
训练数据
%
2011年8月
超大规模语言模型技
术第二次更新
未来几年将语音识别的句正确率提升到90%!
图像识别同样获得巨大成功
系统 方法 效果
DeepID3
DeepLearning
%
Face++ %
DeepID2+ %
DeepID2 %
DeepID %
DeepFace-ensemble %
FR+FCN %
GaussianFace
传统方法
%
%
TL JointBayesian %
人眼 %
深度学习在感知智能中获得巨大成功
面向感知及认知智能的深度学习平台
深度学习平台训练算法并行方式探讨
主要内容
深度学习平台对讯飞超脑计划的支撑
超算是人工智能的关键要素
• 深度学习技术的再度崛起,正在颠覆
统计模式识别、机器学习和人工智能
领域,相关专家成为“香饽饽”
• 大数据目前已经和深度学习融合,在
语音识别及图像识别等感知人工智能
方面发挥了巨大作用
• 超算平台是人工智能的基础,提供海
量数据处理、存储以及高性能运算解
决方案
组成部分
硬件组成
软件调度
支持业务
业务场景
大规模数据预处理
进行GMM-HMM等经典模型的训练
CPUs、4TB & 6TB、10Gb/s
Linux & 监控体系 & 运维体系
资源调度系统 集群编程框架
数据
预处
理
特征
提取
N-
gra
m
……
硬件架构
软件架构
业务支撑
CPU集群
组成部分
硬件组成
软件调度
支持业务
业务场景
进行Deep Learning相关模型训练,如DNN、RNN、
CNN等
Linux & 监控体系 & 运维体系
资源调度系统 集群编程框架
DNN RNN CNN ……
硬件架构
软件架构
业务支撑
GPGPUs、IB 并行文件系统
GPU集群
CPUs,10Gb/s
Linux & 监控体系 & 运维体系
资源调度系统 集群编程框架
硬件架构
软件架构
业务支撑 DNN RNN CNN ……
GPGPUs、IB
并行文件系统 集群文件系统
GMM HMM
融合调度界面 程序开
发
任务提
交
在硬件层面,全局设计网络方案、融合文件系统;在软件层面,重新设计
并揉和调度界面、使HPC&BigData开发一体化;以提升程序开发效率和流
程执行效率。
深度学习平台
深度学习在感知智能中获得巨大成功
面向感知及认知智能的深度学习平台
深度学习平台训练算法并行方式探讨
主要内容
深度学习平台对讯飞超脑计划的支撑
Acoustic model
DNN-HMM VS GMM-HMM
Computation of DNN in SR
model parameters : more than tens of millions
speech corpus: more than ten thousand of hours
Acceleration
CPU – GPU – GPUs
深度学习应用于语音识别
Fig. 2 Model parallelism
training corpus
深度学习应用于语音识别
Fig. 3 Data parallelism
training corpus
Tradeoff between Speed-up and Convergence
training corpus
GPU0 GPU1 GPU2 GPU3
Central Node
Fig. 4 ASGD applied to multi-
GPU in a server [4][6]
central node, high bandwidth
requirement
conflict between model latency
and efficiency
传统的异步SGD方案
① get mini-batch from training
corpus
② receive the model from the
previous node, and merge the
local gradient to generate a
new model
③ send the new model to the
next node and train the next
mini-batch simultaneously
Fig. 5 Ring structure parallel
strategy for multiple GPUs
GPU0 GPU1
GPU3 GPU2
③
②
①
Training
corpus
③
环形并行学习策略
start point
GPU0 GPU1 GPU2 GPU3
residual
residual
and so on ......
train
time
transmit
time
merge
time
Fig. 6 Timing analysis of the RSPS
asynchronous mode
no central node, one
transmission per mini-batch
for each node, low bandwidth
requirement
easy to hide transmission
环形并行学习策略
start point
GPU0 GPU1 GPU2 GPU3
residual
residual
and so on ......
train
time
transmit
time
merge
time
Fig. 6 Timing analysis of the RSPS
[ (n 1) ] 0residual calc transmit mergeT T nT T
ca( ) +transmit merge lc mergen T T T T
overlap of transmission and
computation
calc merge
transmit merge
T T
n
T T
环形并行学习策略
环形并行学习策略
max{ ,0} max{ ( 1) ,0}wait residual transmit merge calcT T nT n T T
single ( )calc merge
multipe calc merge wait
T n T T
Speedup
T T T T
calc merge
transmit merge
calc merge
transmit merge
T T
n if n
T T
Speedup
T T
else
T T
环形并行学习策略
max
calc merge
transmit merge
T T
Speedup
T T
• Tcalc (larger mini-batch, eg. rectified linear units)
• Ttransmit (compress transmission data, eg. quantize the gradient)
• Tmerge (overlap merging, eg. pipelining, hierarchical merging)
实验结论
Fig. 7 Relationship between the speedup and the number of GPUs
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
s
p
e
e
d
u
p
the number of GPUs
深度学习在感知智能中获得巨大成功
面向感知及认知智能的深度学习平台
深度学习平台训练算法并行方式探讨
主要内容
深度学习平台对讯飞超脑计划的支撑
讯飞超脑计划
• 讯飞超脑的三大研究方向:
– 更加贴近人脑认知机理的人工神
经网络设计,更好的支撑认知智
能的实现
– 实现与人脑神经元复杂度可比的
超大人工神经网络(相当于目前
感知智能网络规模的1000倍)
– 实现基于连续语义空间分布式表
示的知识推理及自学习智能引擎
中国 国家
美国
日本
英国
北京
9,634,057
平方公里
亿
万
北纬
38°56'
东经
116°20'
亿
华盛顿
9,629,091
平方公里
北纬
38°53′
西经
77°02'
178
平方公里
16410
平方公里
亿
377835
平方公里
东京
2188
平方公里
东经
140°50'
北纬
35°44'
……
人
口
讯飞超脑预期成果
实现世界上第一个中文认知智能计算引擎!
• 通过模拟人脑的知识表示达到联想和推理
• 通过自动学习获取新的知识实现不断进化
• 通过自然交互(语音、文字)更加拟人化
超算平台对讯飞超脑的支持
数千倍训练数据及数千倍模型参数的巨大挑战!
• 更大规模的超算平台集群建设
• 更优的深度学习并行化算法及集群调度算法
• 深度定制的人工神经网络专属芯片
THANK YOU!