最新卓越管理方案您
可自由编辑
全国第四届研究生数学建模竞赛全国第四届研究生数学建模竞赛
题目 高速公路路面质量的评价问题
摘要
品质管理品质知识高速公
路路面质量的评价问题国
防科技大学饶彬孙蕾唐荣
富对于问题 1,采用相关分
析法分析了四个质量指标
间的线性关系和非线性关
系,得出了部分指标间具有
弱线性相关性的结论。分析
指出了指标间虽然有弱相
题号 C
关性但并不能给出一个确
定的函数关系式,而且还带
有一定的随机性。
对于问题 2,首先分析了 10个因素指标的信息存在较大的冗余性,采用相关分析,
并结合总体最小二乘法拟合出了部分因素指标间的数学表达式。进一步分析得出
只需测量其中的 5 个关键指标即可(参看 P8 页图 6)。其次,按照一定的规则对
这几个关键因素指标的试验水平划分等级。最后,采用多因子方差分析法检验各
因素指标对质量指标的影响能力。结论见 P13页图 13。
对于问题 3,首先阐明了压实度理论上界的物理背景与数学含义。其次结合
数据和工程背景,将集料看成是由粗料和细料两个总体构成。进一步将粗细集料
实体简化为标准球体,则压实度理论上界问题就可以归结为球体的装箱问题。文
章给出了一种晶体分布法解决装箱问题,然后从理论上推导得出了压实度理论上
界与集料级配比(即筛孔通过率)的关系,并结合数据给出了定量分析。
对于问题 4,和问题二的处理方法类似,将沥青类型、碎石质量、生产厂家
等因素分成简单的几个等级,前一个问采用单因子方差分析法进行处理,后一问
涉及到两种影响因子,采用双因子方差分析法进行检验。结论参见 P24~P27。
对于问题 5,根据试验结果对建设部门提出了一些有用的建议。(1)因素指
标的测量可以简化,只需要测试 6 个指标即可,分析了其理论依据;(2)提出
了采用主成分分析法对高速公路的综合质量进行评估的方法。(3)分析了贝叶斯
网络在处理高速公路路面质量评价问题的优缺点。
参赛队号 参赛学校 国防科技大学
参赛队员姓名 饶彬 孙蕾 唐荣富
第 1 页
1问题重述
(略,参看原题)
2问题分析
高速公路路面质量的设计问题具有非常重要的现实意义,一方面可以降低高
速公路的运行成本,另外一方面可以保障运输任务的安全。设计任务的一个非常
重要的问题是找出对高速公路路面质量有较大影响的因素以及评价高速公路路
面质量的指标体系,另外还要分析因素与因素间、因素与指标间、以及指标与指
标间的关系,才能根据分析结果找出较优的方案,改良设计任务,提高路面质量。
但是由于我国建设高速公路的历史不长,对高速公路路面各因素的影响还不太了
解,无法给出其解析的表达式,只能从试验数据或计算数据出发,从中挖掘规律,
建立各种指标和影响因素的经验模型。
从本质上讲,高速公路路面质量的评价问题属于多元统计分析的内容。本题
中涉及 10个因素指标,4个质量评价指标和 290组实验样本数据。由于数据来源
于真实的测试数据,将不可避免的引入粗大误差(异常值)和随机误差,另外数
据的量纲也不一致,因此首先应对数据进行预处理。又因为缺乏指标间和各种因
素间的先验计算公式,在分析它们之间的关系时首先应该进行相关性检验,如果
相关性显著,再采用总体最小二乘方法拟合参数。采用总体最小二乘算法的根据
是设计矩阵和观测矩阵都带有随机误差,常规最小二乘算法估计精度不够。最后,
题目中五个问题各有特点,决定了解决的方法也不同。
第 2 页
对于问题一,将 4个评价指标当成是 4个随机变量,采用相关分析法分析它
们之间的线性相关关系,得出了部分指标间具有弱线性相关性的结论。并分析了
描述指标与指标关系的困难性,也是说四个指标间并没有明确的函数关系,而是
还带有一定的随机性。
对于问题二,本质上属于方差分析的内容。首先,因为 10 个因素指标之间
具有较强的相关特性,信息的冗余性很大,本文采用相关分析,并结合总体最小
二乘法拟合出了部分因素指标间的数学表达式。因此从理论上可以不需要测试 10
个因素指标,只需测量其中的 5个关键指标即可。其次,按照一定的规则对这几
个关键因素指标的试验水平划分等级。最后,考虑到质量指标同时受到多个因素
指标的影响,因此不宜采用单因子方差分析法进行分析,而采用多因子方差分析
法检验各因素指标对质量指标的影响能力。
对于问题三,首先阐明了压实度理论上界的物理过程与数学含义。其次结合
实测数据和工程背景,将集料看成是由粗料和细料两个总体构成。如果将粗细集
料实体简化为标准球体,则压实度理论上界问题就可以归结为球体的装箱问题。
文章给出了一种晶体分步法解决装箱问题,然后从理论上推导得出了压实度理论
上界与集料级配比(即筛孔通过率)的关系,并结合数据给出了定量分析。
对于问题四,和问题二的处理方法类似,需要将沥青类型、碎石质量、生产
厂家等因素分成简单的几个等级,前面一个问可以采用单因子方差分析法,后一
问涉及到两种影响因子,可以采用双因子方差分析法对影响的显著性进行检验。
对于问题五,根据试验结果对建设部门提出了一些有用的建议。(1)因素指
标的测量可以简化,只需要测试 6 个指标即可,分析了其理论依据;(2)提出
了采用主成分分析法对高速公路的综合质量进行评估的方法。
第 3 页
指标分析
首先我们来分析一下 10个因素指标的具体涵义。
(1)油石比:
定义为混合料中沥青与集料(即矿粉、碎石)的质量比,即:
,其中为混合物中沥青的质量,为混合物中集料(矿粉和碎石)的质量,表示粗
碎石质量,表示细碎石质量,表示矿粉质量。
(2)筛孔通过率:
显然筛孔通过率应为筛孔直径的函数,即,。且,。反映了集料粗细程度的分
布,设为集料质量的分布函数,则应有,的计算可以采用差分的方法获得。
(3)空隙率(VV):
定义为混合料经碾压后达到设计压实状态时,其中空隙体积占总体积的百分
比。即:,其中表示空隙所占体积,表示沥青所占体积,表示集料所占体积,上
标“撇”在这里无特殊说明均表示压实后的状态。
(4)矿料间隙率(VMA):
定义为压实状态时,混合料中“有效沥青体积+空隙体积”占总体积的百分
比,即:。
(5)饱和度(VFA):
等于(VMA-VV)/VMA,单位是%,反映有效沥青体积占 VMA体积的百分率。即。
(6)粉胶比(DP):
定义为混合料中矿粉质量与沥青质量的比。即。
(7)毛体积密度:
定义为达到设计压实状态的试件的密度。即。
第 4 页
(8)最大理论密度:
定义为混合料理论上的最大密度,即如果不含任何空隙时混合料的密度。VV=
100-毛体积密度/最大理论密度×100。因此有。
(9)%Gmm(最初):
即混合料在最初压实状态的压实度。最初压实状态的压实度为经过少数几次
碾压后的压实度。压实度=试件密度/最大理论密度×100。
(10)%Gmm(最大):
混合料试件成型时达最大压实状态时的压实度。一般应达到或略超过设计压
实度。
显然上述指标之间在理论上具有较强的关系,例如,,即是说各个指标间是有
一定的相关关系的(不一定是线性相关性)。对于实测数据而言,因为测量误差
的影响以及一些其他因素,往往导致这些理论等式并不一定严格成立。
数据分析
由于数据来源于真实的测试数据,将不可避免的引入粗大误差(异常值)和随机
误差,因此首先应对数据进行预处理。
(1)异常数据的处理
由于本文采取的方法是多元统计处理的方法,近代稳健统计学的研究表明[4],在
应用各种回归模型时,观测数据中不能有一个粗大误差,否则结果是不可靠的。
本题中的数据明显含有过失误差,例如 192 次试验测得的 VMA 值为“15..33”,
明显是人为疏忽造成的,又例如序号为 226的弯拉应变系数,给出的结果为 31450,
明显高于其他测试数据(其他数据变化范围都在[,]之间),因此
第 5 页
可以预先剔除掉。但是剔除的方法不能太过主观,应该遵循一定的规则。
对于静态的过失误差数据,国家标准里面有一些剔除的算法,如罗曼诺夫斯基准
则和格拉布斯准则等。但这些方法的前提是数据本身必须符合正态分布。本题涉
及 290组测试结果、10个影响因素、4个评价指标。从数据上看,变化范围都不
太大,可以近似看成是 290次独立等精度的测量,但从分布上看和正态分布相接
近,为了充分提高数据的利用率,本文提出了一种异常值剔除的迭代法,对少量
的异常值进行剔除。算法步骤如下:
异常值迭代剔除法
1.给定初值,计算均值,方差。
2.第次迭代,计算,具体做法是对,如果,则;
3.如果,则迭代结束,即为所求的野值点集合;如果,计算均值,方差,令,
返回第 2步。
其中为预先设定的阈值参数,一般取 2~4,本文取 4,以便提高阀值,充分利
用数据利用率。通过解算,本文共剔除了 4个异常值数据,虽然和真实数据相比
变化不大,但提高了数据的可信度。
(2)缺失数据的处理
测试结果中含有许多空格和斜杠线,表示测试结果未知或未做。如果简单地将这
些含有缺失数据的纪录剔除掉,将会减少样本含量,且其它未缺失的信息利用不
上。如果简单地采用均值填充的方法又显得精度不够。本文采取的办法是区别对
待,例如对于岩石和沥青类型中的缺失数据,统一划为其他类型;对于筛孔百分
率的缺失数据,因为通过率具有严格的数学和物理基础,即筛孔越大,通过率越
高,可以采用已知数据进行多项式拟合的方法预测缺失数据的值,另外很多数据
第 6 页
的缺失值是因为前面的试验已经达到 100%了,对于更大的筛孔,通过率肯定也为
100%,只需将其补成 100%就行了;对于 10 个影响因素的缺失值,由于部分因素
之间满足严格的数学关系式(例如),可以利用它们之间的关系式进行反推;对
于 4个评价指标之间的缺失值,由于目前为止并不知道它们之间的影响因素,可
以利用已有数据分析它们之间的相关关系,相关性如果显著则建立回归模型来补
齐。
图 1筛孔通过率原始数据图 2修正后的筛孔通过率
如图 1是筛孔通过率的原始测试数据,中间有许多断点。考虑到筛孔通过率
的物理规则是筛孔越大,通过率越高,这是一个物理连续过程,因此可以用平滑
的连续曲线来拟合(也可以用插值进行处理),进而填补缺失数据。本文采用三
次多项式函数来进行拟合,修正后的筛孔通过率数据见图 2。可见,修正结果良
好。这样混合物的筛孔通过率就可以反映在拟合的多项式系数上了,如果只是粗
略的分析,用一个线性函数的斜率就可以近似反映出混合物粗细的分布情况。另
外对于没有进行筛孔通过率测试的试验,由于差别都不大,可以采用平均值进行
补齐。
(3)量纲的处理
考虑到本文的指标数据变化范围非常大,直接处理计算量大,且不好分析指标和
因素间的相关关系。为了方便起见,本文将所有数据进行标准化处理,即
其中表示试验样本号,表示指标编号,表示指标均值,表示指标标准差。为了方
便起见,以后无特殊说明均省略“*”符号,用表示标准化后的数据。标准化后
的数据并不影响指标间的相关关系,但处理起来更加方便和直观。
第 7 页
3问题一求解(相关分析法)
问题一要求描述高速公路路面质量的抗水损害性能、高温性能、低温性能的
四个指标之间有没有数量关系?如果有数量关系,请建立它们之间的数学模型。
为了方便起见,设抗水损害性能中的冻融批劈裂强度比(TSR%)为,浸水马歇尔
稳定度比(S0%)为,车辙测试为,弯拉应变为。由于事先无法得到 4个指标间
的先验公式(线性的或非线性),首先考虑的方法应是线性回归方法,非线性回
归目前尚无有效的处理办法。先考虑一元线性回归的情况,可以用 4个指标两两
间的线性相关系数来衡量,即 R统计量进行计算,
表示正线性相关,表示负线性相关,在 0附近表示两随机变量基本上不相关。试
验结果见表 1,由表 1 可见,四个指标之间具有弱的正线性相关性。正相关性表
明 4 个指标变化趋势一样,都是越大越好。其中 TSR 指标和 S0 指标的正相关性
为 ,弯拉应变和车辙的正相关性为 ,相关性稍微明显些;TSR和车
辙的正相关性为 ,车辙和弯拉应变的相关性为 ,相关性稍微弱一
些。图 3是四个指标实际的变化图,由图可以看出四个指标间的相关性并不是很
明显。我们以指标(车辙)和指标(弯拉应变)进行线性回归(因为它们的线性
相关性稍微好一些),结果见图 4,由图也可以看出弯拉应变指标虽然总体上随着
车辙指标的增大而增大,但它们之间的线性相关性并不是很明显,说明还有一些
随机因素在起作用。
图 3四个评价指标变化图图 4弯拉应变和车辙之间的线性拟合图
表 1四个评价指标间的线性相关系数
TSR S0 车辙 弯拉应变
TSR
第 8 页
S0
车辙
弯拉应变
由于一元线性相关性非常微弱,可以再考虑多元线性回归方法,即某个指标
可能与其他某几个指标之间成线性相关关系,即可能有如下的公式:
(1)
其中的,为了估计参数和作显著性检验,需要采用最小二乘估计方法。这里
我们不采用常规的最小二乘方法,而是采用总体最小二乘估计法。因为传统最小
二乘法是建立在设计矩阵精确已知,有误差的情况下的。而我们所获得的试验数
据和都是有误差的,所以用最小二乘方法将会导致大的误差。而采用总体最小二
乘方法同时考虑到了和的扰动,将会得到比一般最小二乘更好的拟合效果(总体
最小二乘算法见问题二的求解,这里不过多阐述)。
经过多元线性回归,我们发现当时,R统计量的值为 ,时,R2统计量
的值为 ,时,R统计量的值为 ,时,R2统计量的值为 。可见,
四个指标间的多元线性关系也不是很明显。因此,四个指标间有可能具有一定的
非线性关系。为了考察指标间的非线性关系,假设指标和之间具有非线性函数关
系,其中的函数关系未知,假设为连续可微函数,则由 Weierstrass定理知,总
可以表示成关于的多项式,只要阶数足够,其逼近精度能达到足够高。本文采用
多项式形式的总体最小二乘方法进行解算,发现四个指标之间的多项式关系并不
明显,反映在算法上就是拟合的残差都非常大。残差随着拟合阶数的增加逐渐下
降,但下降的并不明显,因此可以认为指标和之间并无实质的联系,可以认为它
们基本上是两个独立的指标,其他两个指标间也具有类似的计算结果。
第 9 页
当然还可以采用其他分析方法,例如考虑 4个指标间用函数基表示的方法,
或者采用神经网络、贝叶斯网络的方法来进行分析。但是就第一问而言,一般采
用线性相关分析法就够了。如果指标间有明显的关系,反映在图上应该近似是一
条直线或曲线。打点结果如果是星云状的,则说明两者关系不明显。结果应该遵
循实事求是的态度,在没有先验知识的情况下非要拟合出一个复杂的数学公式是
不科学的。就像测量人的身高和体重一样,虽然身高和体重有一定的关系,但并
不能说得到了一个人的身高就知道了他的体重,还有一些随机的因素必须要考虑。
结论:四个指标间有一定的弱相关性,其中 TSR 指标和 S0 指标的相关性为
,弯拉应变和车辙的相关性为 ,其它指标间的相关性不明显。因此
四个指标间并无明显的数学关系,在对路面质量进行评价时,4 个指标都应进行
测量。
4问题二求解(方差分析方法)
问题二要求建立描述高速公路路面的抗水损害性能、高温性能、低温性能的
四个质量指标和认为影响高速公路路面质量的最重要的和比较重要的因素之间
比较精确的数学模型,选择这些因素的理由是什么?根据模型认为采用什么样的
方案可以提高高速公路路面的质量。
对于问题二,本质上属于方差分析内容。在分析某个因素指标对某个评价指
标的影响是否显著时,其他的几个指标都应该处于同一试验水平条件下。另外,
10个因素指标之间具有很强的相关特性(例如,以及,知道了其中的两个就知道
了另外一个),也即是说因素间有比较严重的冗余信息,完全可以提取出几个主
要指标就可以反映和 10 个指标的所有内容。再利用提取的主要因素指标和 4 个
第 10 页
质量指标分别进行方差分析,就能够分析各种因素对路面质量的影响是否显著。
考虑到 10 个指标之间可能存在交互作用,采取的方法应该以多因子方差分析为
主。
评定试验水平
因为在分析某个因素指标对某个评价指标的影响是否显著时,其他的几个指
标都应该处于同一试验水平条件下。而同一试验水平的标准比较含糊,必须定量
化。因此首先应该对因素指标评定试验等级,为了方便起见,本文对 10 个影响
因素按一定的规则评定为“高”“低”两个等级。等级划分门限的原则是高低数
据各占一半。当然,还有其他的划分方法,例如划分为 3个等级或者更多的等级
等。但就本题而言,样本数比较有限,为了增加因子分析的可信度,采用两个等
级试验水平的划分是可行的。
筛孔通过率试验水平的划分比较特殊,前面已分析过筛孔通过率不是一个简单的
指标,而是一个分布函数。直接对分布函数进行处理非常困难,涉及的变量有 13
个,且混合物的分布函数是一个复杂函数,用常规的分布函数族难以拟合。我们
对集料的分布密度进行分析,发现密度函数的线性分布特性非常明显(对绝大多
数试验而言),如图 5所示。因此我们可以用密度函数的斜率来反映指标的试验
水平。
图 5集料粗细程度的分布密度函数图 6十个指标间的相关关系
冗余性分析
采用相关分析法,得到 10 个因素指标之间的相关系数(见表 2),由表可见部分
因素之间相关性较强,而有些因素之间的相关性则较弱,本文以相关系数为界限,
得到 10 个指标之间的关系图(见图 6)。可见,指标之间的相关性比较强,它们
反映的基本上都是沥青和集料的比例;指标之间的相关性也较强,它们反映了混
第 11 页
合物的密度特性;指标的相关性也较强,它们反映了混合物压实度的特性。由此
可见,理论分析结果和试验数据结果吻合的很好,都反映出指标数据的冗余性。
因此,对于高速公路建设部门而言,没有必要同时测量 10 个指标的数据,只需
找出其中几个有关键影响因素的指标即可。
表 2十个影响因素之间的相关系数(阴影部分表示相关性强)
X1 X2 X3 X4 X5 X6 X7 X8 X9
X1
6
6
X2 1
4
4
7
X3 1
1
5
X4 1
2
7
X5 1
8
1
X6 1
X7 1
X8 1
X9 1
X10 1
另外,从图五可以看出相互线性相关,实际上线性相关性具有传递性,下面证明
之。
定理 1:若随机变量与近似线性正相关,与近似线性正相关,则与近似线性正相
关。
证明:设随机变量和的均方根分别为和,已知与近似线性相关,则有,其中表示
相关系数。不难推得和满足关系式:
。又因为与近似线性正相关,则有。而方差为 0的变量必然 .为常数,即,因
此有,同理有,代入即有,即是说与近似线性正相关,证毕。
这样,原来的 10 个指标我们可以缩减为 5 个指标,即,其他 5 个指标基本
上都可以由这 5个指标线性表出。
第 12 页
我们采用总体最小二乘法对 10个因素之间关系进行线性拟合。在 290组试验
中,设和是两组线性相关指标的样本值,两两配对,组成数据点集合,我们的目
标是找到一条直线使集合中各点到直线的距离平方和最小。
这里采用的总体最小二乘方法和最小二乘方法有所不同。最小二乘方法是建
立在是精确已知,有误差的情况下的。而我们所获得的试验数据,都是有误差的,
所以用最小二乘方法将会导致大的误差。而采用总体最小二乘方法同时考虑到了,
的扰动,将会得到比一般最小二乘更好的拟合效果。
考虑数据拟合问题:给定个数据点,希望对这些点拟合成一直线。假定直线
方程为。若直线通过点,则。
现在考虑让拟合直线通过已知个数据点的中心
,
若将代入,则可将直线方程写作
或者用斜率形式等价写为
参数向量称为拟合直线的法向量(normalvector),而称为拟合直线的斜率。
于是,直线拟合问题变成了法向量或者斜率参数的求解。
显然,将个已知数据点代入直线方程后,直线方程不可能严格满足,会存在
拟合误差。总体最小二乘拟合就是使各个已知数据点到直线方程的距离平方和最
小化。
点到直线的距离由
确定。于是,已知的个数据点到直线的距离平方和为
可以写成单位向量与矩阵的乘积,即
(2)
第 13 页
其中,
总体最小二乘方法归纳如下:
1.计算均值点,,;
2.按照(2)式构造矩阵。
3.计算矩阵的最小特征值及其对应的特征向量;
则由法方程确定的直线可以使得距离平方和达到最小。
图 7油石比和 VMA的关系图图 8VMA和 VFA的关系图
采用总体最小二乘方法进行拟合,部分结果见图 7和图 8,可见部份因素指
标间的线性相关性比较明显。拟合出的各因素间的关系如下:
(3)
需要说明的是由于受到噪声和随机因素的影响,上述关系式并不一定严格成立,
而只是指标间的一种近似关系。
方差分析
前面通过相关分析的方法,将主要影响指标缩减为 5个,即。可以认为如果质量
指标和因素有关,则根据图 6知也和、和有关。简化指标的好处有两点:一是质
量监测部门不需要同时测量 10 个指标,只需测量 5 个就可以达到相同的测试目
的,而信息含量基本不变;另外一点好处是便于进行方差分析。本题中如果直接
对 10 个因素和 4 个质量指标进行方差分析,必须考虑因素与因素之间交互的情
况,这样会导致数据量的不足和造成各总体方差水平的不一致性,而缩减为 5个
指标后,处理相对容易些。
考虑到 4个质量指标同时受到多个因素指标的影响,因此采用单因子方差分
析法进行分析是不适宜的,而采用多因子方差分析法检验各因素指标对质量指标
第 14 页
的影响能力。
进行多因子方差分析的目的是检验某个因素指标或某几个因素指标对某个
评价指标是否具有显著影响。为了充分利用数据,使结果更具有可信性,前面我
们已对各因素指标的试验水平分为两个等级“高”和“低”。下面首先描述多因
子方差分析的基本原理。为方便起见,以双因子方差分析为例[4]。
设因子有个试验水平,,因子有个试验水平,。将条件下所考察的指标看成是
一个总体,共有个总体,假定其服从。为检验假设:一切彼此相等,需从每一总
体中独立抽取样本,记其试验结果为,其中是试验次数。于是有数据构造式
这里。令,,,则
(1)与有交互作用的情况下,检验的假设为
(4)
(2)与有交互作用的情况下,检验的假设仅为和。
检验的统计量分别为;
(5)
其中,,,,拒绝域分别为
(6)
采用 Matlab 的统计工具箱,我们对每个质量指标做了多因素方差分析。因
为已经提取了缩减成了 5个关键指标,另外高速公路的建设主要是物理变化,因
此可以基本上不用考虑指标互相交互的情况。结果见图 9~12以及表 3。图中最右
边一列表示各因子的值,倒数第二列表示检验的 F值。理论上值越小,值越大,
则影响越显著。一般认为表示拒绝原假设,即该因素指标对质量指标有显著影响。
表 3给出了影响因素与指标体系两两间因子分析的结果。
第 15 页
图 9五个关键因素对 TSR的图 10五个关键因素对 S0的
方差分析结果方差分析结果
图 11五个关键因素对车辙的图 12五个关键因素对弯拉应变的
方差分析结果方差分析结果
表 3单因素方差的分析结果(〇表示影响显著,×表示不显著)
(1)油石比 (3)VV (6)DP
(7)毛
体积
密度
(9)GMM
最初
TSR × × × × 〇
S0 × × × × ×
车辙 〇 × 〇 〇 〇
弯拉 〇 × × × ×
图 13因素与质量指标间的关系
根据检验数据,还可以画出因素与质量指标之间的关系图,见图 13。图中比
较粗的连线表示显著性也相对强一些。根据前面指标间的相关分析和因子分析的
结果,可以得出一些结论:1)影响抗水损害性能的关键指标为和;2)影响路面
高温性能的主要指标有除了以外的其他 9个指标,其中(油石比)的影响性最大;
3)影响路面低温性能的指标有。
因素与指标间的数学模型
前面通过多因子分析法,已经找出了影响四个质量指标的关键因素,虽然通过
检验已经知道它们之间有某种关系,但究竟是什么关系,关系明不明显还需要进
行线性拟合。部分线性拟合结果见图 14,15。由图可以看出,指标和因素间的关
系还是不是很明显。
图 14X1和 Y4的拟合图图 15X1和 Y3的拟合图
结论:10个影响因素指标存在较大的冗余性,部分因素指标之间存在较大的
相关性(图 6),因此可以缩减为 5个关键因素指标。采用多因素方差分析可以对
因素与指标间的关系作显著性检验。虽然部分因素指标对质量指标起显著作用
第 16 页
(图 13),但影响质量指标的因素太多,并不能完整建立起指标和主要因素间的
数学表达式。
5问题三求解
问题剖析
1.路面压实度的上界的理解
显然对于任何一个大于等于 100的数而言,都是路面压实度的一个上界,但
是这样考虑问题,在实际中是没有什么意义的。从出题专家的角度看,这里所谓
数学意义下,路面压实度的上界应该是希望我们探讨路面压实度的上确界,或者
求解一个压实度的上界,使之尽可能的接近上确界。事实上,我们可以证明经过
无限次碾压,路面压实度会达到其上确界。
定理 2经过无限次碾压,路面压实度数列是收敛的,收敛极限就是其上确界。
证明:设路面碾压次数为,第次碾压后的路面压实度为,试件的体积随着的
增大而递减,而路面压实度=试件密度/最大理论密度×100=试件质量/试件体积
/最大理论密度×100,故路面压实度随的增大而单调递增,即。同时,路面压实
度不可能超过 100,所以由单调有界定理,数列的极限一定存在。由极限的定义
和确界原理,就等于极限。也就是说经过无限次的碾压,路面压实度最终会达到
其上确界。
在实际中,我们不可能对路面进行无限次碾压,而且工程中达到或略超过设
计压实度后,就会停止碾压,理论上的上确界在实际中很难达到。所以只能从理
论的角度去分析路面压实度的上界和筛孔通过率的关系。
2.筛孔通过率与路面压实度的上界的关系。
第 17 页
筛孔通过率是指即集料中能够通过直径大小不同的各种筛孔的各部分的质量
占集料总质量的比例,是反映集料粗细程度及大小搭配情况的指标。集料颗粒大
小分布概率的差别决定了碾压到极限时试件的颗粒排列结构,从而引起空隙大小
的不同以及压实度上确界的差异。所以筛孔通过率和路面压实度的上界是有必然
联系的。我们将建立数学模型描述它们的数量关系。
3.求解思路
我们假设集料颗粒为球体,而公路的形状看成一个装满球体的容器。由定理 1,
经过无限次碾压路面,可以使路面压实度达到上确界。因此,我们就将求解路面
压实度的上界问题转化为了球体装箱问题,即寻找一种方法使得公路的试件密度
达到上确界,并讨论不同直径球体的配置比例和这个上界之间的关系。这个问题
比普通的装箱问题复杂很多。普通的装箱问题是给定了所装不同物体的特征,从
而将注意力集中在求解如何是箱子的利用率最大上,这个问题本身就是 NP问题,
在有效时间内,人们只能求出近似解。而我们这个问题比普通的装箱问题更复杂
之处在于不同直径的球体概率密度函数是随着筛孔通过率变化的,同时公路的体
积远远大于球体的体积,要装的“箱子”可以看成是无限大的,球体的个数也可
以看成是无限多的,这给寻找合适的装箱方法带来了巨大的困难。若要在此基础
上讨论筛孔通过率和路面压实度上界的关系将更加困难,所以必须将问题根据实
际情况进行简化,从而找到筛孔通过率和路面压实度上界的内在关系。
我们的模型首先给出一般的理论推导公式,然后根据附件中给的筛孔通过率,
画出不同直径集料颗粒的概率分布图,跟据该图特点及工程背景将集料分为大直
径的粗料和小直径的细料两类,然后采用化学上一种非常密集的晶体原子的排列
方式对球体进行排列得到上确界的近似解。最后分析了这两种集料的比例与路面
第 18 页
压实度的上确界的数值关系,并根据附件中的数据通过计算验证了我们所给出的
关系的合理性。
基本模型
根据压实度定义,路面压实度=试件密度/最大理论密度×100。而实际路面混
合料密度与路面实际空隙率密切相关。因此,路面压实度的上界问题可以归结为
路面实际空隙率的极小化问题。以下,我们称本文推导的集料密度、混合料密度
为“计算密度”,以区别与“最大理论密度”、“表观密度”等。
基本模型建立如下:
1拟合集料的概率密度分布函数。
假设筛孔通过率分别为、、……、,且假设反映集料粗细程度的概率密度函数
为。为简单起见,不妨假设所有集料(碎石、矿粉)都是标准球体,从而可以视
为关于集料半径的函数。故半径为的集料实体个数为,其中为半径为的集料实体
的体积,为表观相对密度,表示集料总质量。
2极小化空隙率。
设计一种路面集料填充规则,希望当给定(即给定级配组成)后,集料按规
则分布后使其空隙率达到极小,并计算其空隙率函数为。
3计算路面压实度的上界。
假设各类集料的密度主要与大小相关,故各类集料的密度为关于半径的函
数,并设各类半径的集料占所有集料体积比例为。由于空气的密度与集料、沥青
的密度约差三个数量级,因此我们将大气的密度的影响忽略不计。设沥青密度为,
油石比为,最大理论密度为。
第 19 页
(1) 如果沥青被空隙完全吸收,则混合料的计算密度为
(7)
(2) 若沥青完全不被空隙吸收,则混合料的计算密度为
(8)
(3) 通常情况下,沥青由于其流动性差,只能部分地被空隙吸收而不可能完全
被吸收,因此,可以加权修正计算密度如下:
(9)
为加权系数。因此,路面压实度的上界为
(10)
其中。
首先,我们对集料的分布概率进行离散简化。用表示直径为的集料分布率,其
中,。通过差分,我们得到概率分布图如下。纵坐标表示集料直径的分布率,横坐
标表示筛孔直径。需要特别注意的是,此处的离散分布率假设与 节的连续分
布假设是不相同的,连续分布是把分布率看成是孔径区间上的均匀分布,因而两
者得到的分布率图像是不一致的。
图 16集料直径的分布概率
从图16看出,集料的直径分布特点是概率分布曲线呈双峰状,直径大的集料
和直径小的集料比较多,中等直径的集料比较少。这组数据来源于工程,也的确
是于工程背景相吻合的。采用多级嵌挤密集配设计方法铺路时,人们通常用碎石
机按大小直径两种规格进行粉碎,所以打出来的石头直径就是以点的概率密度为
峰尖,呈双峰状分布。然后将粗集料形成的嵌挤成骨架结构,以提高沥青混合料
的稳定性,细集料逐级依次填充从而形成多级嵌挤的集(矿)料级配[1]。所以无
论是从工程背景,还是数据分析来看,我们都可以把问题简化成只有两种直径的
第 20 页
球体来做。
空隙率及路面压实度理论上界推导
由于我们假设集料实体为标准球体,而公路形状可以认为是长方体容器。因
此,集料的分布规则问题可以转化为球体装箱问题。
与一般装箱问题不同的是:由于公路的量级远大于集料实体直径,本问题中
的长方箱可以认为是无限的。我们的处理过程为:建立一种规则,先将所有直径
为的大球(粗料)排入无限箱,然后将直径为的小球(细料)排入无限箱,并使
得无限箱的空隙尽可能小。
1晶体分布法
借用化学上原子在晶体中的排列形式,在此我们提出一种装箱方法(以下称
为“晶体分布法”):考虑一个边长为的正方体,分别以它的八个顶点、六个面
的中心为球心,以半径作球。因此在这个正方体内的球体体积恰好为四个完整球
体的体积(八个顶点中,每个顶点有八分之一的球体;六个面中,每个面有二分
之一的球体,见图 17),因此密度计算如下:
(11)
图 17晶体分布法排列球体
我们认为这样求解球体排布问题的优点在于这种排列方法把球排列得非常
紧密,每个球跟上,中,下每层各 4 个球相切,一共 12 个,这也是一个球同时
能相切的最多球的个数。已经证明,在某种程度上这种分布规则可以使得达到空
隙率最小[3]。尽管这该装箱方法看起来似乎在正方体内似乎没有一个完整的球,
但是考虑到在一个无限大的方体容器内,以这样的正方体来填充整个方体容器时,
不完整球体的体积与完整体积的球体总体积比较而言是微乎其微的。因此,利用
第 21 页
极限的思想,可以认为这种装箱方法的非空隙率为 ,并记为。
2理论推导
我们采用晶体分布法先对粗料进行排列。对于细料排列,可以认为细料的一
部分填入粗料排列形成的空隙,另一部分仍按晶体分布法进行排列,并假设填入
空隙的细料所占所有细料的比重为。当粗料所占集料的比重大时,空隙没有被填
满,即所有的细料都用来填充空隙了。当粗料所占集料的比重很小时,。若意味
着只有粗料,没有细料。
以下我们推导按晶体分布法排列所得的空隙率。
设粗料所占集料的比重为。由附表四及附表五知,粗料与细料的密度通常并
不一样(可能与材质有关),因此我们假设粗料与细料的密度分别为、,其体积分
别为、,则
(12)
当按晶体分布法填入粗料时,空隙体积为,所占体积为。
填充细料后,一部分细料填充粗料的空隙,这部分细料不会增加新的体积。
而另一部分细料(体积为)也按晶体分布法填充,新增的空隙体积为,所需总体
积为。故此时容器总体积为
因此,可得集料的计算密度为
(13)
再考虑沥青的对密度的影响。假设混入沥青后,沥青被空隙完全吸收,则此
时混合料的计算密度为
(14)
若沥青完全不被空隙吸收,则混合料的计算密度为
第 22 页
(15)
因此对,进行加权,设为的权值,得到混合料的修正计算密度为
(16)
由文献[2],可以取 至 之间。
从而,路面压实度的理论上界为
(17)
定量分析
在本节我们通过数学推导,定量分析粗料占集料比重与集料的计算密度之间
的数量关系。由于正是表征了集料的级配比,反映了筛孔通过率,因此,此即是
定量分析了筛孔通过率与集料的计算密度的数量关系。此外,我们还定量分析了
压实度的理论上界与(即与筛孔通过率)的数量关系。并且按附录所给数据计算
出了压实度可达到理论上界的试验结果。
1集料的计算密度
仍采用 的记号,有
(18)
(19)
(1)当时,此时表现为细料过少,而不足以按晶体分布法填充粗料的空隙。
此时,为关于的递减函数,即增加细料可以减少空隙,提高计算密度。
(20)
(21)
(2)当时,即当细料不至于很少,足以按晶体分布法填充粗料的空隙。
当时,粗料所占集料的比重可计算得
第 23 页
(22)
此时,集料的计算密度与的关系为
(23)
需要注意的是,当时,上式不成立(主要是因为在推导过程中使用了作为除
数),容易计算得时。
容易知,当细料直径粗料直径,细料可以按晶体分布法完全填入粗料形成的
空隙,而且满足:细料体积与空隙体积的比例恰好满足时,即,集料的计算密度
最大,此时满足
(24)
(25)
采用附件四与附件五的高速公路表面层数据,,由(18)-(25)式可得
(26)
(27)
即当粗料与细料比重为时,集料的计算密度达到最大。
根据(1)(2)的讨论,仍采用附件四与附件五的数据,,可以考察集料计算
密度与粗料所占比重的数量关系如图 18所示。
图 18集料计算密度与粗料比重的关系曲线图
2压实度理论上界
沥青的密度通常为,在本文中我们取中位值,小于集料的密度。
要得到压实度上界,就要获得混合料的密度上界。而由于沥青密度小于集料
密度,那么混合料的密度上界应在集料的最大计算密度的基础上混入沥青。
若沥青被完全吸收,则沥青的体积应恰为获得集料的最大计算密度时空隙的
体积,即
第 24 页
(28)
此时油石比应为
(29)
混合料的密度上界
(30)
则压实度理论上界
(31)
如果沥青完全不被吸收,估计集料的密度为,比沥青密度大的多(从图也可
看出)。因此,当沥青完全不被吸收时,应不混入沥青,此时混合料的密度达到
上界,且与集料的最大理论密度相等,即。压实度理论上界为
(32)
现在我们采用附件四与附件五的高速公路表面层数据,,以附录资料的最大
理论密度的均值 作为混合料的最大理论上界,选取修正权值,计算压实度
理论上界如下。
此处计算得到的压实度理论上界比附录资料的一般%Gmm(最大)都要小,这
主要是由两个原因得到的:
1 据查阅资料[2]知,我国目前采用测量%Gmm(最大)的方法存在误差,可能
使得%Gmm(最大)偏大。
2 在实际中,集料的形状及大小要复杂的多,从而使得集料的多级挤嵌作用
要比模型中的填充作用强,从而使得实际空隙比模型推导的空隙要小,压实度增
大。
3 我们建立的模型只简单区分了粗料与细料,并以两组实体分别代表集料。
第 25 页
事实上,集料的直径大小分布是连续的而且远比双峰模型复杂的多。根据我们的
模型建立过程可知,如果我们增加粗料与细料的区分度,如以三种或更多的直径
大小不同的实体代替两组实体的做法,压实度理论上界比此试验结果要大。
3模型进一步讨论
(1)如果考虑三类不同半径的集料实体,而且这三类实体仍可以按晶体分步
法填充,且认为集料密度为 ,则同 计算可得结果:
此时,压实度理论上界大于或接近%Gmm(最大)。
(2)根据我们后来所查的资料,对于球体装无限箱的问题,目前已有的研究
结果表明,通过非常复杂的方法,可以使得非空隙率可以达到 。以下,我
们根据这个新的参数,仍使用与上相同的数据,给出相应结果如下。
对于两类不同半径的集料实体,相应地有:
对于三类不同半径的集料实体,相应地有:
6问题四求解
问题四要求沥青质量、碎石质量对高速公路路面抗水损害性能、高温性能、
低温性能究竟有没有影响,你们的观点是什么?根据是什么?不同厂家、不同产
地的但型号相同、类型相同的沥青、碎石质量对高速公路路面抗水损害性能、高
温性能、低温性能究竟有没有影响,你们的观点是什么?根据又是什么?
问题四的求解思路和问题二一样,采用方差分析的方法对路面质量进行显著性检
验。为了充分保证显著性检验的数据量,对沥青种类和碎石成份不能分得过细。
第 26 页
沥青对路面质量的影响
本文的沥青我们暂时分为三类,普通沥青含“25”为第一类总体,改性沥青
含“13”的为第二类总体,含“20”的为第三类总体,其他沥青由于样本量不足
(小于 50)不予分析。
图 19 沥青成份对路面质量的影响图(a)为沥青对 TSR 指标的影响,(b)为沥青对 S0 的影
响,(c)为沥青对车辙的影响,(d)为沥青对弯拉应变的影响。
方差分析的试验结果见图 19,图中所示的值越大,值越小()表明影响越显
著。为显著与否的衡量标准。另外,箱图中心线的位置越平,表明总体差异小,
实验结果越不显著。本文的实验结果表明沥青成份的不同对车辙和弯拉应变的影
响非常显著,对 S0 的影响比较显著,而对 TSR 的影响不明显。另外从箱图可以
看出,改性沥青“13”和“20”的性能相当,但与普通沥青“25”的差别较大。
再来考虑不同产地,但型号相同的沥青对四个质量指标的影响情况。前面已
经分析了改性沥青不同种类间的差异非常小,因此沥青型号暂时可以只考虑两类,
即改性沥青和普通沥青。产地的划分原则上也不能太细,化得太细则样本量不够,
(例如韩国沥青出现的次数最多,也只有 38 次,其中还包含普通沥青和改性沥
青两类)本文只抽取两个最多的样本进行分析,即产地分别为韩国和湘阴的情况。
发现这两个产地间的不同对 4 个质量指标并无明显影响(图 20 给出了其对 TSR
的影响图)。
图 20沥青产地对 TSR的影响
岩石对路面质量的影响
岩石的质量本文只抽取其中的两种,即石灰岩和玄武岩,因为它们的样本比
较足量。方差分析的结果见图 21,结果表明岩石的种类对 TSR 和 S0,即抗水性
第 27 页
能无显著影响,而对车辙和弯拉应变影响较为显著。
图 21 岩石成份对路面质量的影响图(a)为岩石对 TSR 指标的影响,(b)为岩石对 S0 的影
响,(c)为岩石对车辙的影响,(d)为岩石对弯拉应变的影响。
不同产地岩石的影响本文将其分为南方产地和北方产地两种,经过检验,和
沥青产地的影响类似,都是对四项指标无明显影响。归其原因,产地虽然分成了
南北两方或国内国外,但两种水平下都包含了多个厂家,其平均性能的差别并不
是很大。另外一个原因是,样本数据虽然有 290组,但真正厂家相同的数据却不
多,造成同一水平下的样本数过小,因此结果缺乏可信度。
7问题五求解
问题五要求根据你们对数据分析的结果,现在测试高速公路路面质量的试验
项目中是否有重要的遗漏?你们对高速公路建设部门有什么建议?
根据试验结果我们对建设部门提出了一些有用的建议。(1)因素指标的测量
可以简化,只需要测试 6 个指标即可,分析了其理论依据;(2)提出了采用主
成分分析法对高速公路的综合质量进行评估的方法。(3)分析了贝叶斯网络在处
理高速公路路面质量评价问题的优缺点。
指标设计问题
前面的相关分析已经得出了 10个因素指标之间具有较强的相关性。即这 10
个指标间的信息是有冗余的。指标间的关系见下
(33)
以及和。因此理论上不必计算 10 个指标,取五个指标基本上就可以了。指
标虽然减少了,但反映的信息量却基本不变。指标的具体物理含义为:指标它们
第 28 页
反映的基本上都是沥青和集料的比例;指标反映了混合物的密度特性;指标反映
了混合物压实度的特性;指标反映了空隙率。
路面综合质量的评价问题
本题中路面质量的评价需要四个指标,且这四个指标都是越大越好,在工程
上,通常需要对路面的综合质量进行评价,即对各种高速公路进行综合打分。传
统的方法是靠专家给出四个指标的权因子,然后加权评分。但这种方法带有较大
的主观色彩。且根据问题 1的分析知道,四个指标之间还是有一定的弱相关性的,
例如 TSR 和 S0 都是反映抗水害性能,直接加权有可能过分夸大某个指标的权重
因子。针对这种情况本文提出了一种基于主成分分析法的高速公路路面综合质量
的评估方法。
主成分分析(principalponentsanalysis,PCA),也称主分量分析,是一种
用较少的综合分析指标代替原来较多的指标,综合提取信息的有效方法。它利用
了降维的思想,从指标代表性的角度来筛选指标,挑选因子负荷绝对值较大的指
标为主要指标。其优点在于它确定的权数是基于由数据本身特性而得出的,不受
主观因素的影响。因此对于相关性较强的数据,用主成分分析法进行分析极为有
利。
设为个观测指标,这里,为其标准化观测矩阵(),为其相关系数矩阵,为
个常数向量。考虑如下线性组合:为个新指标。的样本方差为,协方差。希望用
较少的新指标代替原来的个指标,就要求它们含有尽可能多的原指标信息且互不
相关。指标中信息量的大小通常用该指标的方差来计量,方差越大,信息含量就
越大,反之则越小。
设的特征根和对应的正交化单位特征向量分别为和,则可以证明当时,有,,
详细分析过程请参看文献[5]。此时令
则和分别称为第个主成分的贡献率和前个主成分的累积贡献率。累积贡献率表明
了前个主成分占所有指标总信息量的份额,一般当时,就可以用个主成分来表示
原有指标而不会损失多少信息。此时,路面的综合质量评价函数为:
第 29 页
(34)
对本文的数据进行主成分分析,得到贡献率见表 4,由表可见,选取 3 个主
成分因子,其信息含量就已经达到 70%了。由此得到 3个主分量。
于是我们得到评分函数为
(35)
表4主成分分析贡献率
通过计算, 综合评价比最
好的试验为 36 号试验,其结
果是显然的, 虽然它的车辙
性能和弯拉应 变不是最好的,
但它的 S0指标 却是最高的
(),因此综合评分比较高。
贝叶斯网络应用的讨论
本题除了使用线性回归,非线性回归,PCA算法以外,用Bayesian网络来求
解各指标之间的关系,也不失为一种好方法。Bayesian网络建模已成为解决许多
不确定性问题的强有力工具。Bayesian网络是用来表示不确定变量集合联合概率
分布的图形模式,它反映了变量间潜在的依赖关系。使用现实世界中的一个对象
通常可以由若干属性变量来描述,这些变量集的各种取值组合就构成了该对象的
状态空间。由于这些变量间存在着一定的关系(独立或依赖),所以通过对它们
的研究可以得到对象的知识表达。Bayesian网络模拟人的认知思维推理模式,是
用一组条件概率函数以有向无循环图(DAG)形式表示不确定性的因果推理模型。
因子 特征值 贡献率% 累积贡献率%
1
2
3
4 100
第 30 页
Bayesian网络的信息由两部分组成:首先是表示条件独立性信息的一种自然方式
——网络结构S,S中的每一节点表示特定域中的一个概念或变量,在节点间的连
接(有向弧)表示了可能的因果关系,体现了域知识定性方面的特征;其次,每
一节点都附有与该变量相联系的条件概率分布函数(CPD),如果变量是离散的,
则它表现为给定其父母节点状态时该节点取不同值的条件概率表(CPT)。CPT体
现了域知识定量方面的特征。可见,Bayesian网络是一种表示数据变量间潜在关
系的定性定量的方法,它使用这种图形结构指定了一组条件独立的声明和用于刻
画概率依赖强度的条件概率的数字值。由于Bayesian网络表示了因果过程的总体
结构,故它可被看作是拥有许多不同组合的一个抽象知识库。它的语义可以从两
方面来理解,其一是将网络看作一种联合概率分布的表示,即Bayesian网络完整
紧凑地表示了网中各变量的联合概率分布。其二是将网络看作条件独立性声明集
合的一种表示。这两种观点实质上是等价的,而且在Bayesian网络的表达、学习、
推理算法中都得到了统一。
本题使用Bayesian网络的优点主要表现在两个方面:
网络能够处理不完整的数据和噪声数据。从本题数据来看,有不
少数据是缺失的,也有少数数据不合乎常理(比如第29个样本玄武岩河南确山SBS
改性沥青的筛孔通过率为%,而筛孔通过率却为%),还
有一些数据可能存在录入上的错误(如第226个样本的弯拉应变为31450,高出同
类数据10倍左右)。在样本数据既有噪声,又有缺失的情况下,概率化使得
Bayesian网络的学习允许样本的不完整性及噪声数据的存在,所以该题很适合用
Bayesian网络模型。
网络能够挖掘出知识的隐含性。Bayesian网络是从数据中获得一
第 31 页
个网络结构或者在结构已知的前提下寻找变量的条件概率表,通过对Bayesian网
络的推理和解释,可以获得隐藏的但我们感兴趣的知识。从我们的实验结果来看,
有些数据样本通过线性及非线性回归算法并没有反映出明确的关系,因此可以使
用Bayesian网络模型验证一下我们的结果。
同时,Bayesian网络也存在它的缺点,Bayesian网络的精确推理是 NP问题,随
着节点数的增加,计算量将急剧增大。
我们可以将每一个指标作为一个节点,利用附录中所给的数据建立网络结构,
寻找各指标间的关系,并判断究竟哪个指标对路面质量的影响比较大。
8模型总结
高速公路路面质量的评价问题具有较强的工程应用背景。采取的方法是多元
统计分析的方法论,在讨论指标间的相互关系时,首先应对影响的显著性进行检
验,在显著性满足的条件下再来讨论函数关系问题。一般采取的办法是样本直接
作图,观察有无规律,进一步采取相关系数进行回归检验和拟和系数。需要说明
的是由于设计矩阵和观测矩阵都带有随机误差,采用常规最小二乘算法是不适宜
的,应该采用总体最小二乘算法进行分析。另外,也可以采用一些非线性方法进
行处理,例如神经网络、模糊数学等方法。
参考文献
1. 陈先仿等,高速公路沥青面层设计、施工工艺与质量控制[J],武汉理工大学
学报,
2. 滕旭秋等,沥青混合料最大理论密度的确定及应用[J],中外公路,
第 32 页
3. 单墫,十个有趣的数学问题[M],上海教育出版社,上海,1999
4. 茆诗松等,概率论与数理统计[M],中国统计出版社,
5. 饶彬,易东云,主成分分析法在股票评估中的应用[J],统计与决策,
感谢阅读