- 1 -
中国科技论文在线
随机森林在分布式光纤挖掘信号识别中的
应用#
魏然 1,2,白永强 1,2**
(1. 北京邮电大学自动化学院,北京市 100876; 5
2. 北京市劳动保护科学研究所,北京市 100000)
摘要:在全分布式光纤检测信号的基础上,针对机器学习中随机森林算法对于分类问题普遍
具有较好效果的特性,提出一种基于随机森林算法的分布式光纤挖掘信号识别方法,使挖掘
信号识别有较好的准确率。具体方法为:将采集到的挖掘信号和正常信号进行预处理,通过
滤波方法去除噪声,以滑窗方式对信号分帧,对分帧后的信号进行特征提取,包括时域特征10
和频域特征,根据挖掘信号和正常信号特征取值情况,采用随机森林算法构建分类器,对信
号进行分类识别。选用测试信号对识别方法进行测试,实验结果表明提出的识别方法有良好
的识别效果。
关键词:分布式光纤;挖掘信号识别;随机森林;平滑滤波;特征提取
中图分类号:TP181 15
Application of Random Forest in Signal Recognition of
Distributed Optical Fiber Mining
Wei Ran1,2, Bai Yongqiang1,2
(1. Automation School,Beijing University of Posts and Telecommunications, Beijing 100876;
2. Beijing Municipal Institute of Labour Protection, Beijing 100000) 20
Abstract: Based on the fully distributed optical fiber detection signal, according to the
characteristics of the random forest algorithm in machine learning generally have a good effect on
the classification problem, this paper proposes a random forest algorithm based on distributed
optical fiber signal recognition method to mining, mining range accuracy signal recognition and
accurate recognition can be improved. The specific method is: the collected signal mining and 25
normal signal preprocessing, noise removal by filtering method, the signal in the sliding window
frame, sub frame signal for feature extraction, including time domain and frequency domain
characteristics of mining, according to the signal and the normal signal characteristic value,
constructs a classifier using random forest algorithm the classification and recognition of the
signal. The test signal is used to test the recognition method. The experimental results show that 30
the proposed method has a good recognition effect.
Keywords: distributed optical fiber; mining signal recognition; random forest; smoothing filter; feature
extraction
基金项目:北京财政项目支持,城市地下基础设施的光纤检测平台,(项目编号:PXM2016_178304_000030)
作者简介:魏然(1993-),女,硕士生,主要从事全分布式光纤传感和机器学习方向
通信联系人:白永强(1979-),男,高级工程师,硕士生导师,主要研究:物理学方向
- 2 -
中国科技论文在线
0 引言
随着社会科技的快速进步,各类地下通信及运输工程应运而生,为国民经济的高速发展35
提供不竭动力,因此,及时发现各类地下设施周围的异常行为有重要的研究价值和现实意义
[1-3]。挖掘行为是一种具有代表性的异常行为,无论是盗挖还是误挖都容易对设备造成破坏,
对工作和生活造成影响,如在光缆分布处挖掘、地下室私自扩建等行为。故可将挖掘信号作
为一种异常行为的代表,通过识别出挖掘信号来发现异常行为。
近些年来,分布式光纤传感器由于其灵敏度高、检测距离长、抗电磁干扰、防腐蚀、寿40
命长等优点,逐步取代传统振动传感器应用于安全监测领域[4]。将光纤铺设于设备周围或缠
绕在设备上,当有挖掘行为作用于设备周围时,产生的信号会导致光纤中的光信号发生变化,
通过信号处理及数据挖掘相关算法分析信号变换可发现挖掘信号,对于及时发现设备周围的
异常情况发生具有十分重要的意义。
本研究中提出一种基于随机森林算法的挖掘信号识别方法。该方法首先将采集到的光纤45
信号进行异常值处理,采用滤波方法降低噪声影响;然后,在时域和频域上计算,提取信号
的时频特征,构成信号的特征向量;最后,使用优化后的随机森林算法构建分类器,对信号
进行分类识别出挖掘信号。实验结果表明,该方法识别挖掘信号的准确率较高。
1 挖掘信号识别方法
平滑滤波信号降噪 50
分布式光纤传感器具有灵敏度高的特点,能检测到微小的信号变化,但也易受到噪声的
影响,尤其是当传播距离较远且信号强度较弱时,很容易被噪声所淹没[5],所以在进行其他
操作前要对采集到的信号进行去噪处理。目前常用的光纤信号去噪方法是小波去噪,但试验
后发现其对于采集到的挖掘信号去噪效果不明显,不能较好地还原信号,故采取了一种平滑
滤波方法对挖掘信号进行去噪处理。 55
平滑滤波的目的是去除数据中夹杂的噪声,还原信号固有特征,滤波器的构造主要考虑
两点:滤波窗口大小和滤波算法的选择[5]。滤波窗口大小可根据实际处理的数据和处理的需
求设定,滤波算法包括均值滤波、中值滤波、卡尔曼滤波等,本研究中对比几种滤波算法的
效果,提出了一种滤波方法,可较好地去除噪声影响。
滤波过程分为三部分进行:首先,去除信号的直流分量;然后,以 10 个数据点为窗口60
进行滑动叠加;最后,对叠加结果取绝对值后再以 10 为窗口滑动叠加。此种平滑滤波方法
与其他滤波方法处理数据结果如图所示:
a. 复杂环境滑动滤波后信号 b. 复杂环境原信号
- 3 -
中国科技论文在线
65
c. 简单环境滑动滤波后信号 b. 简单环境原信号
图 1 平滑滤波效果图
Fig. 1 Smooth filter effect diagram
a. 复杂环境小波滤波后信号 b. 复杂环境原信号 70
c. 简单环境小波滤波后信号 b. 简单环境原信号
图 2 小波滤波效果图
Fig. 2 Wavelet filter effect diagram
75
a. 复杂环境卡尔曼滤波后信号 b. 复杂环境原信号
c. 简单环境卡尔曼滤波后信号 b. 简单环境原信号
图 3 卡尔曼滤波效果图
Fig. 3 Calman filter effect diagram 80
- 4 -
中国科技论文在线
85
a. 复杂环境维纳滤波后信号 b. 复杂环境原信号
c. 简单环境维纳滤波后信号 b. 简单环境原信号 90
图 4 维纳滤波效果图
Fig. 4 Wiener filter effect diagram
上部信号为噪声干扰严重时采集的信号,下部信号为噪声干扰较弱情况下采集到的信号,
左侧信号为滤波后的信号,右侧信号为原信号。对比滤波前后的信号波形,可以看出,提出
的此种平滑滤波方式,噪声严重情况下还原出的信号与噪声干扰较弱情况下还原出的信号,95
虽然幅值上有一定的差异,但信号的峰谷值及整体趋势大体是一致的,而其余滤波方法在噪
声严重情况下还原出的信号与噪声干扰较弱情况下还原的信号有较大差异。故提出的此种滤
波方法有较好的去噪效果。
时频结合特征提取
要对信号进行分类,识别出信号,根据的是有挖掘行为时采集的信号与挖掘行为时采集100
的信号对于某些指标的区别,这些指标即为信号的特征。目前,信号特征的提取主要集中在
时域和频域两方面。
时域方面,由于挖掘行为的影响,光纤中传播的光信号的形状会发生变化,如下图所示:
- 5 -
中国科技论文在线
图 5 挖掘信号时域图 105
Fig. 5 Time-domain signalofmining
图 6 噪声信号时域图
Fig. 6 Time-domain signalofnoise
可以看出,有挖掘行为作用的信号幅值会突然增大,则信号短时能量也会增加。设定一110
个阈值,信号点超过此阈值的比例也会增加,即信号的短时过零率会变大。信号的周期性会
发生变化,则信号的过零次数会发生变化。故本研究中以信号的峰谷值、均值、中位数、短
时能量、短时平均过零率、过零次数、上下峰均比和信号能量等作为信号的时域特征。
频域方面,由于挖掘行为的影响,光纤中的光信号能量的频域分布会产生变化,如下图
所示: 115
- 6 -
中国科技论文在线
图 7 挖掘信号时域图
Fig. 7 Frequency-domain signalofmining
图 8 噪声信号频域图 120
Fig. 8 Frequency-domain signalofnoise
可以看出,有挖掘行为作用时,信号在频域上的幅值会有一个提升,对应最大幅值的频
率后移,主峰值和次峰值的比值减小。本研究中选取了频域能量、频域信号幅值最大值对应
频率、频域信号主峰值和次峰值的比值作为信号频域特征。
随机森林算法分类器构建及优化 125
目前,对于光纤信号识别多采用支持向量机(SVM)方法,该方法泛化能力较高,但核
函数参数对结果影响很大,且核函数较为复杂,故提出采用随机森林算法对光纤信号进行识
别。
随机森林是机器学习中一种重要的分类算法,是包含多个决策树的分类器,输出的类别
是由各个树输出的类别的众数而定的。每个决策树根据样本特征的情况确定分裂属性和度量,130
将样本分裂为各个子集,而每个子集中样本的类别尽量一致。随机森林中各个决策树的训练
是并行进行的,故具有速度快的优点,在多数的数据集上都有良好的分类效果。随机森林中
- 7 -
中国科技论文在线
最终生成的决策树数量和选取的特征会影响分类精度,故要对随机森林算法的参数进行优化,
选择合适的决策树数量和特征得到最优的分类器。
优化随机森林算法采用的是网格法,将待优化的两个参数在一定的空间范围中划分成网135
格,通过遍历网格中所有的交点来寻找最优参数。由于此方法要遍历两个参数的所有组合,
效率低时间长,故根据试验结果设定一个阈值,当识别的准确率高于此值时停止遍历。最终
选取的特征包括频域信号幅值最大值对应频率、信号的最小值、信号能量、信号最大值、频
域幅值最大值、峰均比、过零率、信号中位数、信号主峰值和次峰值之比,由于决策树数量
超过 70 后,在训练集上的准确率都很高,权衡运算效率和测试结果,选择决策树的数量为140
100 棵。
2 实验过程及结果分析
数据采集及处理
数据采集
实验中所用的信号均从真实的环境中采集。在中的一块 * 的草坪中,沿草坪145
的四周埋入分布式光纤,深度约 20cm。信号采集使用的是基于Φ-OTDR(相位敏感光时域反
射)技术的设备,其原理为:当分布式光纤周围出现挖掘行为作用于光纤附近时,由于外力
的作用光纤的长度和折射率会随之发生变化,最终改变光纤中传播光束的光相位。设备按照
设定好的采样频率、采样范围和采样时间采集光信号,利用公式将采集到的光信号转化为对
应强度的电压,单位为 V(伏特)。设置好设备参数,在实验场地上选择位置挖掘,开始采150
集数据,即得到在有挖掘行为作用的信号。同样环境下,设置同样参数,不进行挖掘行为采
集到的为噪声信号。本次实验共采集了 2000 组信号片段,其中 500 组受挖掘行为影响,1500
组不受挖掘行为影响。
数据处理
首先,将采集到的挖掘行为作用的信号和噪声信号去除掉由于设备导致的无用信号点;然后,155
再对信号以平滑滤波方法去噪,对信号进行还原;再然后,对信号进行重点时频特征提取,
得到信号的特征向量并进行存储。重点特征如下:
表 1 特征名称及符号
Tab. 1 Feature names and symbols
特征名称 特征符号
信号最大值 peak_signal
信号最小值 trough_signal
频域信号主峰值对应频率 max_fft
频域幅值最大值 fft_signal
峰均比 par
信号能量 power_signal
过零率 zcr_signal
信号中位数 median_signal
频域信号主峰值和次峰值之比 rate_signal
160
- 8 -
中国科技论文在线
挖掘行为作用的信号和噪声信号的特征取值分布情况如下:
图 9 挖掘信号特征分布
Fig. 9 Mining signal feature distribution
165
图 10 噪声信号特征分布
Fig. 10 Noise signal feature distribution
可以看出挖掘信号和噪声信号在各个特征的取值上是存在有较大差异的。
分类测试
对于采集到的 2000 组数据,分别选取有挖掘行为作用和无挖掘行为作用数据的 70%,170
共计 1400 组作为训练集,用于训练随机森林分类器,其余的 600 组作为测试集,测试分类
效果。根据采用网格法选取的特征和决策树数目,以 1400 组数据为训练集训练得到随机森
林分类器,用该分类器对 600 组测试集进行测试,具体识别结果如下:
175
- 9 -
中国科技论文在线
表 2 识别结果
Tab. 2resultsofclassification
信号类别 挖掘信号 噪声信号
挖掘信号 149 1
噪声信号 7 443
将分类器分类结果与实际信号进行对比,实际的 150 组挖掘信号,有 149 组被正确识别180
出,1 组被误判为噪声信号,实际的 450 组噪声信号,有 443 组被正确识别出,7 组被误判
为挖掘信号。600 组测试信号中有 8 组被误判,其余 552 组均识别正确,本方法的识别准确
率为 %,识别的召回率为 %。
由实验结果可知,采用随机森林算法识别作用于光纤附近的挖掘信号有较好的效果,本
文提出的整套光纤信号识别方法,具有一定的现实应用意义。 185
3 结论
本文提出的基于随机森林算法的分布式光纤挖掘信号识别方法,是基于已有的光纤信号
识别方法,对方法中信号去噪、特征提取和分类识别算法进行了选择和改良。平滑滤波方法
可在噪声影响严重的情况下,较好地还原信号特征,所以此方法适用于实际环境中。将机器
学习中效果较好的随机森林分类算法用于信号识别,选择合适的特征和参数,可得到较准确190
的分类结果。因此,此方法可有效去除噪声影响,提取信号的特征向量,精确识别挖掘信号,
提高识别的准确性。
[参考文献] (References)
[1] 王延年,赵玉龙,蒋庄德,朱笠,杨静,赵国仙. 油气管线泄漏监测分布式光纤传感器的研究[J]. 西安交通大
学学报,2003,09:933-936. 195
[2] 吴俊. 长途油气管道破坏预警的干涉型分布式光纤传感系统定位技术研究[D]. 重庆:重庆大学,2007.
[3] 毕福昆 ,吕雷 ,李雪莲 . 基于信号时频关联分析的光纤入侵振源识别算法 [J]. 北方工业大学学
报,2016,03:15-19+24
[4] 李枭. 分布式光纤传感器的周界安防系统入侵信号识别[D]. 湖南:湘潭大学,2013.
[5] 张燕君,刘文哲,付兴虎,毕卫红. 基于 EMD-AWPP 和 HOSA-SVM 算法的分布式光纤振动入侵信号的特200
征提取与识别[J]. 光谱学与光谱分析,2016,02:577-582.