线性倒立摆模型的时间最优控制
王铁军 张明廉
北京航空航天大学自动化科学与电气工程学院自动控制系 100083
E-mail(wtjcn@)
摘 要:本文对线性倒立摆模型的时间最优控制进行了研究。对线性倒立摆模型进行约当标
准型变换,使之后的直接状态转移公式变得简单。用相平面分析了状态空间的分布。文中为
了得到状态点相对三维分隔面的关系,以便形成反馈形式的时间最优控制,需要在反馈回路
中求解一个三阶系统的时间最优过程,在线性倒立摆模型中这个求解包括一个一维数值搜
索。仿真结果验证了该方法的正确性。
关键词:倒立摆 时间最优控制 约当标准型
1. 引言
倒立摆因其设备简单和其运动特性本质不稳定性、非线性,对它的控制方法的研究一直
很活跃。以往对倒立摆控制的研究绝大多数是以系统的稳定为目标,对动态过程的性能讨论
得比较少。
时间最优控制在上世纪五六十年代曾是研究热点,当时出现的极大值原理描述了线性时
不变系统时间最优控制的一些基本特性,并给出了一组方程,但这组方程很难求解,尤其是
在系统阶数在 3 阶或 3阶以上时。在之后的四十多年里,高阶线性系统的时间最优控制一直
没有得到很好的解决。[4]研究了系统 A 阵为对角阵的线性系统的时间最优控制,分析了状
态空间点的分布。
单纯的时间最优控制在实际工程控制中用得很少,原因:1、需要被控对象精确的数学
模型;2、需要全状态反馈;3、鲁棒性很差;4、对于高于二阶的系统轨迹计算困难。但是
它的快速性特征仍吸引人们对它进行深入研究,尤其是在磁盘控制中[5,6]。
本文对倒立摆的线性近似模型的时间最优控制进行了研究。线性化后的倒立摆模型是一
个 4 阶的特征根都是实数的单输入、可控、线性非时变系统。本文中首先对线性倒立摆模型
进行约当标准型变换,这使得之后得到的状态转移公式简化。利用得到的状态转移公式,把
时间段长度作为求解时间最优轨迹的变量。其次,用相平面分析了状态空间的分布,并借助
一维数值搜索得到状态点相对三维分隔面的关系,形成了闭环的时间最优控制。最后的仿真
结果验证了该方法的正确性。
2. 数学模型和约当标准型
车摆系统的结构示意图如下所示:
- 1 -
F
x
θ
m
l
g
M
图 1 车摆系统的结构示意图
θ : 摆杆的偏角,顺时针为正
m: 杆的质量,质量均匀分布
l : 杆的长度
M: 车的质量
x : 车的水平位移,向右为正
F : 作用在车上的水平方向的力,向右为正, maxFF ≤
忽略各种摩擦,该系统的数学模型[3]:
⎪⎪⎩
⎪⎪⎨
⎧
+−
++−=
+−
+−−=
))(4cos3(
)sincossin)(2cos2(3
)(4cos3
sin2sincos34
2
2
2
2
Mmml
mlgMmF
Mmm
mlmgFx
θ
θθθθθθ
θ
θθθθ
&&&
&
&&
(1)
以 作为系统的状态,输入改用线性系统理论中常用的u,u的上下界大小相
等符号相反。线性化后的系统方程
TxxqqX ],,,[ &&=
uBXAX XX +=& (2)
⎥⎥
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎢⎢
⎣
⎡
+−
+
+
=
000
4
3
1000
000
)4(
)(6
0010
Mm
gm
MmL
Mmg
AX ,
⎥⎥
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎢⎢
⎣
⎡
+
+−=
Mm
MmLBX
4
4
0
)4(
6
0
对这个系统进行约当标准型变换
PZX = , TzzzzZ ],,,[ 4321=
uBZAZ ZZ +=& (3)
PAPA XZ
1−= , XZ BPB 1−=
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎣
⎡
−=
c
c
AZ
000
000
0000
0010
, ,TZB ]1110[=
⎥⎥
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢⎢
⎢
⎣
⎡
+
−
−
=
4343
3333
2323
1313
10
01
00
00
pp
Mm
pp
pp
pp
P
其中常量
- 2 -
)4(
)(6
MmL
Mmgc +
+=
)45(
)4(
)(
2
3)4(
2213 MmMmg
MmL
MmgMm
p ++
+
++
=
)45(
)(3
2223 MmMmL
Mmp ++
+−=
33
2 2
3 2
( )2 ( 5
( 4 )
m
p
g m M m mM M
L m M
= − + + ++ 4 )
)45(2
3
2243 MmMm
mp ++=
3. 状态转移公式
时间最优控制的任务就是从初始状态Zt出发,在最短的时间内使状态到达 0。由极大值
原理在线性非时变系统时间最短控制上的结论[2]可知,因为线性倒立摆系统是单输入可控系
统,所以其时间最优控制问题是正常的(非奇异)。又因为系统A阵的特征值均为实数,如
果时间最优控制存在,则时间最优控制的输入是u的极值,而且最多有 3 次切换,即最多分
4 个时间段。
根据线性系统理论,在常量u作用下,线性倒立摆系统从Z0过渡到Z1的方程为
( )
1 0 0
Z Z
tA t A t
ZZ e Z e B u d
τ τ−= + ∫ (4)
其中
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎣
⎡
= −
ct
ct
tA
e
e
t
e Z
000
000
0010
001
定义函数
Tctctt
Z
tA
Z c
e
c
ettdBetB Z ⎥⎦
⎤⎢⎣
⎡ +−−==
−
−∫ 112)(
2
0
)(
int ττ
设初态Zt=[z1,z2,z3,z4]T,它经 4 段常值输入下到达状态 0。用下标 4~1 依次表示 4 个时
间段(这样就和下面提到的状态空间维数相同)。设 4 个时间段的长度分别为t4, t3, t2 , t1(本
文中所有的ti>0,i=1~4)。与之对应的 4 个常值输入分别为u4=-u3, u3=-u2, u2=-u1, u1。u1是输
入上下界中的一个,u1为正(负)时,输入序列表示为 ( )。Z+iu −iu t到 0 的状态转移公式:
- 3 -
(5)
1 2 3 4 1 2 3
1 2 1
( ) ( )
int 4 4
( ) ( )
int 3 3 int 2 2 int 1 1
( )
( ) ( ) ( ) 0
Z Z
Z Z
A t t t t A t t t
t Z
A t t A t
Z Z Z
e Z e B t u
e B t u e B t u B t u
+ + + + +
+
+
+ + + =
展开后得:
3 4 2 3 4 1 2 3 44
3 4 2 3 4 1 2 3 44
2 2 2 2
1 2 3 3 4 4 2 3 4 1 2 3 4
1
1 2 3 4
2( ) ( ) ( )
31
4( ) ( ) ( )
1 ( 2 2 ( ) 2 ( ))
2
1
1 2 2 2
1 2 2 2
c t t c t t t c t t t tct
c t t c t t t c t t t tct
t t t t t t t t t t t t t
z
t t t t
z
e e e e zu
c
z
e e e e
c
⎡
+ + + + + +
− + − + + − + + +−
⎡ ⎤− + + − − + + + +⎢ ⎥⎢ ⎥− + − +⎢ ⎥⎢ ⎥ =− + − + −⎢ ⎥⎢ ⎥⎢ ⎥− + − + −⎢ ⎥−⎣ ⎦
⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(6)
由上式可以看出,u1的大小起了座标尺度缩放的作用,u1的符号起了将座标旋转到奇对
称位置的作用。为简单起见以下的讨论中令u1=1。
4. 状态的空间分布和对应关系
4z 的独立系统中, ,如果 初值的绝对值不小于 ,那么由于它
正特征根带来的发散性,不可能在u 作用下回到 0。即,在有限输入下 的收敛域是有界的。
以下讨论的
uzcz += 44& 4z |/| max cu
4z
Z 域中都假定 初值的绝对值小于 | 。 4z |/max cu
4 个时间段组成一个 4 维空间T=[t1,t2,t3,t4]T。每个T对应的输入序列[u1,u2,u3,u4]都有两种
情况:[1,-1,1,-1]和[-1,1,-1,1]。Ti={T| tj=0, j>i},表示可以通过i段输入就可以到达零点时的时
间序列,显然Ti是i维空间。令 对应iT Z 中的输入ui为 1(-1)的状态空间为 tiZ +( tiZ −)。
与
iT
tiZ
+、 tiZ −分别构成一一对应关系,而且 ti tiZ Z− += − 。令 ,它是一个完整的i
维空间。将 分隔为 和 的是低一维的空间 。如果借用数学中开闭区间的概念,
则 。
−+= tititi ZZZ U
tiZ
+
tiZ
−
tiZ )1( −itZ
),[ )1()1(
−
−
+
−
+ = ititti ZZZ
这里的分隔面和滑模控制中的分隔面性质上有所不同。滑模控制中,输入要不停的切换
才能大致保持在分隔面上。但是,这里的时间最优控制中,只需输入正确,就可以保持在分
隔面上。
下图来自文献[1],它描述了系统 ux =&&& 的 3 维空间中切换面对空间的划分。这里借用该
图来理解线性倒立摆系统的状态空间分布,其中的符号改成了本文的符号。该图只描述到 3
维空间,因为 4 维空间无法用图来描述。
- 4 -
图2 时间最优控制导致的状态空间分布
5. 反馈控制的思路
方程(6)很难解析求解,即便是数值解也很难得到。为了进行反馈控制,必须换个思
路。
假设存在一个对Z状态空间进行划分的连续函数Φ:R4→R,在 和 上 得值分
别是正和负,在 上得 0。 是四维空间 中的三维空间,就如同是一维实数空间中的
一个点,它的存在理论意义大于实际意义,因为实际中的状态点很难严格属于 。因此,
只要对 的符号变化检测足够及时、准确,就可以根据
+
4tZ
−
4tZ Φ
3tZ 3tZ 4tZ
3tZ
Φ Φ的符合来决定输入是取上限还是
下限。这种控制策略,在除零点以外的地方,不会产生类似滑模控制在滑模面上的情形,因
为在这个分割面两侧,只有一侧的控制把状态推过分割面,另一侧的控制使状态沿着分割面
运动。
以上分析说明,只要能区分当前状态是属于 还是 就可以形成反馈形式的时间最
优控制。下面,为区分 和 ,研究它们的边界 和 。
+
4tZ
−
4tZ
+
4tZ
−
4tZ
+
3tZ
−
3tZ
6. 三维分隔面
在 上,t+3tZ 4=0,代入(6)得
- 5 -
3 2 3 1 2 3
3 2 3 1 2 3
2 2 2
1 2 2 3 3 1 2 3
1
1 2 3
2( ) ( )
3
4( ) ( )
1 ( 2 2 ( ))
2
1 2 2
1 2 2
ct c t t c t t t
ct c t t c t t t
t t t t t t t t
z
t t t
z
e e e z
c
z
e e e
c
+ + +
− − + − + +
⎡ ⎤− − + + +⎢ ⎥ ⎡ ⎤⎢ ⎥− + − ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ =− + − ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎢ ⎥− + −⎢ ⎥−⎣ ⎦
(7)
将 代入其他三式得 2 1 3t t t z= + + 2
2
2 2 2
1 3 3 2 12 2
zt t t z z− − − − = 0 (8)
3 1 3 2 1 3 2( 2 ) (2 2 )
3
1 2 2 0
ct c t t z c t t ze e e z
c
+ + + +− + − − = (9)
3 1 3 2 1 3 2( 2 ) (2 2 )
4
1 2 2 0
ct c t t z c t t ze e e z
c
− − + + − + +− + − − =− (10)
由(8)得
22 2
1 3 1 3 2 2 3 2 1 22 2 ( ) ( 2t t z t z z t z z z= + + + / = + + − + /2 ) 2
0
因为t1>0,所以要求
2 2
3 2 1 2( ) (2 ) 2t z z z+ + − / >
如果
2
1 2(2 ) 2 0z z− / < (11)
初步解得:
{ } { }2 23 2 1 2 3 2 1 2( 2 ) 2 or ( 2 ) 2t z z z t z z z< − − − + / > − + − + /
取辅助变量 a>0,左边一段的解可以表示为
2
3 2 1 2( 2 ) 2t z z z a= − − − + / −
代入t2的表达式,并由t2>0 解得
2
1 2(2 ) 2 0z z− / >
与(11)条件矛盾,舍弃左边这段解。用同样的方法检验右边的解,易得符合t2>0 的条件,
保留。
- 6 -
当 时,t21 2(2 ) 2 0z z− / > 1>0 总成立,t2的表达式
2 2
2 3 2 1 2 3( ) (2 ) 2t t z z z t= + + − / + + 2z
2
令 ,代入 3a t z= +
2 2
2 1 2(2 ) 2t a z z a= + − / +
易得t2>0。
至此,得到t4=0 时使t1、t2>0 的t3的范围是
2 2
2 1 2 1 2
3 2
1 2
max( ( 2 ) 2 0) (2 ) 2 0
0 (2
z z z z zt
z z
⎧⎪ − + − + / , − / <> ⎨
) 2 0− / >⎪⎩
任意在此范围内的t3代入(7)式第 3 式的左边得
3 2 3 1 2( ) ( )
3
1 2 2ˆ
ct c t t c t t te e ez
c
+ +− + −= 3
+
3
为了使 需要对t3zˆ z= 3进行一个一维的数值搜索。得到的一组t1~3是 3 维空间z1~3内的时
间最优控制过程的解,所以这个解有唯一性。
给定一个状态Z,如果由式(8~10)可以得到T3上的一个解T=[t1,t2,t3,0]’,代入(7)第
4 式左边,得到的值和Z中的z4的做差
3 2 3 1 2 3( ) ( )
4e 4
1 2 2ct c t t c t t te e ez z
c
− − + − + +− + −= −−
z4e反映了Z到它沿z4轴方向在 上投影的位置关系,t3tZ 1~3解的唯一性保证了沿z4轴方向
只有一次串过分隔面 。当z3tZ 4e=0 时, ;通过数值实验知,当z+∈ 3tZZ 4e<0 时, ,
u=-1;当z
+∈ 4tZZ
4e>0 时, ,u=1。如果Z由式(8~10)得不到T−∈ 4tZZ 3上的一个解,则用(-Z)
求解,最后求得的u需要反号一下。
7. 仿真结果
设置倒立摆系统的参数: ,=m =M , =l , =g ,u 上下界的绝对
值为 1。由第 5 节中的方法构成函数 ,就可以进行闭环反馈控制。采
用这种方法对线性倒立摆系统进行仿真,从状态[, , , ]’出发到达 0 点的时间最优
轨迹如下图所示
)()( 1 XPfZfu −==
- 7 -
0 1 2
-1
0
1
t(second)
Xt=[ ]
theta
Dtheta
x
Dx
图 3 线性倒立摆系统时间最优控制的仿真
对应的 T=[, , , ]’。
仿真中不是使用的一般的积分算法,而是使用(4)式样的直接状态转移计算方法,对
于切换时间点也进行数值搜索。如果不采用这两种计算方法,积分误差和切换时间点误差会
导致不能在 4 段控制后比较精确地到达 0 点,而是需要更多段的控制才能振荡着收敛到 0
点。
8. 结论
本文针对线性倒立摆系统特征根都为实数的特点,先将系统进行约当标准型变换,这样
简化了直接状态转移公式。借助相平面分析状态空间的分布后,给出了求解状态点相对三维
分隔面位置的计算方法,形成了闭环的时间最优控制。
本文的方法可以归纳为:对于单输入、输入上下界奇对称、正常(可控)、特征根都为
实数的 n 阶线性非时变系统,
1) 对系统进行约当标准型变换;
2) 假定输入的符号序列,得到以 n 个时间段( ],1[, niti ∈ ,正实数)为变量的时间
最优过程的状态转移方程,初始状态 Z 的每个分量( ],1[, nizi ∈ )对应一个方程;
3) 令 ,剔除一个 对应的方程,求解剩余的 (n-1)个方程得到一组
,如果无解则用(
0=nt kz
]1,1[, −∈ niti Z− )求解;
4) 将得到的 和]1,1[, −∈ niti 0=nt 代入 方程的另一边,得到 ,比较 和 的
大小得到输入的符号。如果 3)中是用(
kz kzˆ kz kzˆ
Z− )求解的,则得到的输入需要反号。
以上描述的方法中,为了对 n 阶系统进行时间最优控制,需要在反馈回路中精确求解(n-1)
阶系统的时间最优过程,当 n 增大时同样难以求解。线性倒立摆模型因为其中的两个 0 特征
根使求解变得相对简单。
在以上时间最优控制的求解中,线性系统相对非线性系统的优势在于可以直接计算状态
转移。非线性的倒立摆系统中,车和摆整体的水平位置和速度与输入力的关系也是线性关系,
- 8 -
所以也可以直接计算状态转移。剩下摆杆的角度和角速度只能用数值积分的方法计算状态转
移。所以,非线性倒立摆系统时间最优控制的数值求解可以简化为 2 维的数值搜索问题,不
过它的指标函数的计算需要数值积分,计算量很大。
时间最优控制可以最快的实现指定的状态转移,充分利用输入的边界,其控制律计算的
复杂随着计算机技术的发展也将逐渐变得可以接受,它体现了控制领域内以复杂换性能的前
进方向。但它也有不少的缺点和需要解决的问题,例如:设计和在线计算复杂;要求全状态
反馈;如何推广到有复数特征根的系统;如何处理输入的非理想跳变;如何消除跳变可能引
起的系统不稳定(即如何兼顾快速性和鲁棒性)等。
本文只是一个理论性的研究,离实际可用还有很大距离。它的价值在于为求解高阶线性
系统的最优控制提供了一个思路。
参考文献
[1] Pao, .; Franklin, .; Proximate time-optimal control of third-order servomechanisms, IEEE Transactions
on Automatic Control, Volume: 38 Issue: 4 , April 1993, Page(s): 560 –580
[2] 解学书,最优控制理论与应用,1987,清华大学出版社
[3] Danbing Seto, Lui Sha, A Case Study on Analytical Analysis of the Inverted Pendulum Real-Time Control
System,
[4] Penev, .; Christov, .; On the synthesis of time optimal control for a class of linear systems, Proceedings
of the American Control Conference, 2002, , Page(s): 316 -321
[5] B. M. Chen, T. H. Lee, K. Peng and V. Venkataramanan, Composite nonlinear feedback control for linear
systems with input saturation: Theory and an application, IEEE Transactions on Automatic Control, Vol. 48, No. 3,
pp. 427-439, March 2003.
[6] Daniel Abramovitch, Gene Franklin, A brief history of disk drive control, IEEE Control Systems Magazine,
June 2002
Time Optimal Control of the Linear Model of Inverted
Pendulum System
WANG, Tiejun ZHANG, Minglian
Beijing University of Aeronautics and Astronautics, School of Automation Science and Electrical
Engineering, 100083
Abstract
Time optimal control of the linear model of inverted pendulum system is studied. Jordan
canonical form is used to simplify the transfer equation of state. Phase plane is used to analyze the
state space. In order to determine a state's relatively position to the separating surface of three
dimensions and form a feedback control, a solve of a third order system's time optimal process is
needed in the feedback loop, which include a one dimension numerical search in this case. The
simulation results demonstrate it's correctness.
Keywords: inverted pendulum system, time optimal control, Jordan canonical form
作者简介:王铁军(1976-),男,山东平度人,博士研究生,研究领域机动目标跟踪、飞
行器制导与控制;张明廉(1934-),男,湖北汉口人,教授,博士生导师,研究领域飞行
自动控制、智能控制等。
- 9 -
引言
数学模型和约当标准型
状态转移公式
状态的空间分布和对应关系
反馈控制的思路
三维分隔面
仿真结果
结论