欢迎进入青岛宝能交通设备网
新闻动态

服务热线0532-23568568

学术交流 面向地舆路网的交通信号智能协同操控办法

作者:AB模板网 发布时间:2022-07-05 17:15:45点击:19

  经过将地舆道网中地舆道网交通场景各个变量特征提取后嗣入贝尔曼方程,经由操练后可以竣工智能体对交通信号灯的自动调控。不才文中将侧重描述怎样正在上述两层智能体中定义MDP中的情况向量、抉择向量和报答函数。

  《测绘学报》《测绘传递》《测绘工程》《卫星导航(英文)》《测绘科学时刻学报》《北京测绘》《Journal of Geodesy and Geoinformation Science》》一同融媒体。

  地舆道网交通场景中,使命智能体的情况向量必需或许反响现时道口的交通壅塞情况。如图 2所示,列队长度吐露交通道口中等候红灯变绿车辆的总数。正在单道口中,车辆列队长度呼应道口各个倾向的车流量,是决断对应相位绿灯时长的纽带成分。除了列队长度表,由于车辆分量和长度直接决断了车辆的发动速率和车辆正在转弯经过中消费年代。因此,本文区分两种类型的交通车辆举动情况向量的加权值,一类为分量抢先15 t或长度大于12 m的大型车(如泥头车或公交车),另一类是广泛的幼客车。

  表1 穿插口车流消息Tab. 1 The rate of traffic flow in the intersection (辆/s)

  本文实验算法摆设于24核CPU和32 GB内存的高功用预备机上,操作系统选用CentOS 7。算法竣工于Python 3.7.3,神经收集搭筑选用Tensorflow1.14,交通境况工作于仿线](由德国航空航天中心运送系统咨询所拓荒的开源软件)。

  报答函数R的定义决断智能体方针函数π的优化主旨,使命智能体的优化操练后的优化主旨为保证每一单个穿插道口不会交通堵塞,因此起先必需对交通壅塞举办量化的定义。如图 2所示,车道壅塞线坐落道道结束权衡车流是否壅塞的基准线。倘若车辆列队长度抢先车道壅塞线,则认为该道口仍然发生交通拥堵。正在大凡的场景中,车辆壅塞线与道道结束距离不幼于道道长度的20%,即当车辆列队长度不抢先车道总长的80%道口该车道倾向交通畅通。交通壅塞数吐露正在必守年代内,全数车道列队长度抢先交通壅塞线的次数总和,是使命智能体交通调控好坏的依照。根据上述定义,报答函数拔擢如下:

  注:长方形吐露行进车辆,车辆尾部的颜色代表差异的车辆行进情况,绿色代表车辆往常行进,黄色代表车辆正正在减速,血色代表车辆正正在甩手等候红灯。

  都会交通工作成果是影响都会坐褥力兴旺的紧迫成分之一,也是灵活都会筑树经过中的紧迫咨询课题。跟着预备机时刻的兴旺,人为智能非常是深化操练正在交通信号职掌中发扬紧迫影响。现在,根据深化操练的交通信号职掌首要针对单道口或都会干道举办优化,面向都会地舆道网区域谐和职掌咨询较少。本文连接马尔可夫序列抉择,提出一种根据深化操练的双层智能体协同职掌设备。第1层,针对单个道口竣工粗调操练,智能体经过观赏道口每一车道的列队长度调控信号配时,竣工单个道口不堵塞;第2层,将多个粗调操练后的智能体模子放入地舆搜蚁合,竣工多道口的协同微调操练。本文以宁波某中学片区的交通谐和为优化主旨打开实验。成果注脚,调控设备与原有固定配时方案比较,具有更高的通行成果。

  如图 3所示,宁波某中学片区坐落宁波市鄞州区,是宁波市城区内车流较为茂盛的区域之一。该道段东起福明道西至桑田道,南起惊驾道北至民安道,由12条地舆道网组成的4个信号灯构成。

  为了验证本设备的有用性,本文设备、原始作图设备和经典韦伯斯特设备[23]竣工的配时方案正在地舆道网中的交通成果举办比力。正在实验中参加10组随机种子,随机种子或许正在指定车流量要求下呈现差异发车次第,经过这10组随机种子下的均匀道网交通成果能保证实验的平允性。如图 6所示,实验以270 s为一轮计算周期,比力3种设备各交通成果系数。成果注脚,本文设备均匀观赏年代比原始作图设备删去7.03%,比经典韦伯斯特设备删去2.87%;本文设备泊车次数比原始作图设备删去12.56%,比经典韦伯斯特设备删去10.49%;迷糊率比原始作图设备遍及8.3%,比经典韦伯斯特设备遍及6.4%。整体来说,本文设备正在车辆均匀观赏年代、泊车次数和迷糊率上都有较为优异表现。非常正在泊车次数上,其他两种设备跟着周期明显成果首要失落。这是由于死板设备经过数学预备取得固定配时方案,本文算法的智能体能经过每个倾向的列队长度及时改变配时,因此具有更好的自契合性。

  经过上述加权后列队长度,定义两种粒度情况向量:①粗粒度的情况向量只预备每一倾向道道上的加权列队长度总和,以图 2为例,粗粒度的情况向量的维度为4, 每个维度的值为每一倾向的车辆加权后总和;②细粒度的情况向量维度则为8, 每一维度为每一车道的车辆加权后总和。

  根据上述预设要求,本文设备分为两层(图 1):第1层为使命智能体,其责任对单个道口举办优化,保证每一同口智能体或许调度各自道口的绿灯时长,使其不变成交通堵塞。第2层为管制智能体,其责任是谐和各个使命智能体,遍及地舆道网举座交通成果。

  智能体对信号灯相位举办绿灯配时后,交通仿真器工作必定周期后经过报答函数对智能体的抉择举办评判,因此怎样切当定义报答函数是本算法的纽带。

  实验车流数据原因于实验区2020年12月6日7:00AM至9:30AM年代段的道口摄像头,操作主旨盯梢算法后取均匀取得(表 1)。实验数据网罗每个道口东、南、西、北4个驶入方位和左、中、右3个驶出倾向,并区分了大型客车和幼型轿车。

  管制智能体优化主旨的定义必需跟着差异场景改变。比方,岑岭期间应经过信号谐和抵达单元年代内道网举座或许通行更多车辆,因此早岑岭的优化主旨定义为道网举座迷糊量;而低峰期应更多斟酌经过信号谐和删去道网内车辆均匀等候红灯年代。交通成果系数吐露指定场景下使命智能体的优化主旨(比方,早岑岭时交通成果吐露单元年代里场景内道口迷糊量总和),则管制智能体的报答函数定义如下:

  (3) 倘若调控前比调控后交通壅塞数删去或增进量抢先20%,注脚调控功率较为明显,分手返报值1和-1。

  本节探求粗细两种情况向量下,单道口的使命智能体操练经过。实验中,智能体每距离两信号周期观赏穿插道口中列队长度,并以此呈现输入向量更新情况行为值神经收集,仿照时长7200 s为一次迭代。图 4吐露每一同口使命智能体的交通系数跟着迭代次数的,此中纵坐标吐露正在一次迭代中交通壅塞数的累积总和,横坐标吐露迭代次数。实验成果注脚,跟着迭代次数的添加,4个道口的交通壅塞系数都呈低浸趋向;当迭代次数约莫至100次时,交通壅塞系数抵达收敛。除此除表,粗粒度情况向量下操练的交通壅塞系数安定性和功率更为优异。这是由于粗粒度情况向量是以边为单元预备列队长度。当每条边上的车辆通行需求经过信号灯多个相位举办职掌时,粗粒度情况向量会使无法切当区分收场哪一相位需求更多绿灯时长,因此其操练也相对难以收敛。

  整体而言,DRL时刻仍然较凯旋地操作于交通信号职掌中,不过现时咨询大凡规模于单道口或许都会干道,根据地舆道网多智能体的交通信号协同职掌较少。本文连接都会地舆道征和深化操练特征,提出一种根据深化操练的双层信号协同职掌操练设备,并将此设备操作于宁波市某中学片区道网。经过与死板配时设备正在仿真器中的观赏年代、迷糊量和泊车次数上的比力,声清晰本文设备的可行性和有用性。

  预备机时刻的兴旺鼓动比如模糊逻辑职掌[6]、遗传算法[7]、专家系统[8]等板滞操练算法引进智能交通边界。正在众多板滞操练算法中,深度深化操练(deep reinforcement learning,DRL)根据马尔可夫抉择外表令智能体正在境况中连续做出相应的抉择,并对其举动抉择举办报答反响,使智能体正在境况中寻觅报答值最高的序列抉择[9]。灵活交通信号职掌系统经过对交通场景中举动向量、情况向量和报答函数的定义,竣工交通信号灯的智能化职掌[10-12]。跟着5G、云预备时刻兴旺,DRL时刻正在交通管制中有了新的打破。文件[13]提出一种正在车联网和5G的境况下,使用DRL建筑一个支柱或许正在云端和周围端动态更改的交通职掌系统。文件[14]提出一种根据周围预备的DRL流量网罗设备,并将此设备操作于缓解交通堵塞标题。文件[15]从灵活都会筑树视点组织一套DRL信号职掌系统,协同多个道口遍及整体交通迷糊量。文件[16]完竣了根据DRL信号职掌算法的细节,正在此算法中智能体的情况向量是区分红网格后的交通流量数据,抉择举动函数是交通灯的连续年代改变,报答函数是两个周期之间的累计等候年代差。文件[17]提出的DDPG-BAND算法,经过DRL对都会干道举办绿波谐和,竣工都会干道多道口协同职掌。

  由上述公式得出,差异方针函数会导致智能体施行差异举动方针的概率不一律,而差异举动方针所呈现的报答值也不一律,深化操练的方针函数满足全部序列抉择的总报答值最大。精巧的方针函数不但仅满足现时抉择或许取得最大报答值,更能保证全部序列抉择经过的整体报答总和最大化。由于智能体方针函数π(s, a)是情况的概率改变经过,情况行为值函数Qπ(s, a)吐露智能体正在情况的s初始要求下,遵从按方针函数π序列抉择所得报答的数学期望,即表达为

  深化操练首要咨询智能体连续地正在动态境况中举办试错和反响操练,然后智能体能正在改变境况中得回最大累积报答的序列抉择[18]。深化操练外表根基是马尔可夫抉择经过(Markov decision process, MDP),包含3个根基单位情况向量(也称观赏向量)S,抉择向量A和报答函数R[19]。智能体正在施行抉择举动后与境况交互,其情况由S1改变至S2,情况改变矩阵记为P。正在施行序列抉择经过中,现时抉择比史书抉择影响更大,假定抉择的虚弱率为Y(γ∈0,1),则上述MDP用式(1)吐露

  (2) 倘若调控交通前壅塞数大于0,调控后交通壅塞数为0,注脚调控后使交通境况从堵塞情况改变为不壅塞情况,返报值1。

  跟着我国幼轿车持有量的连续增进,交通拥堵逐渐成为都会管制最为扎手的标题之一。都会道网接受了全部都会的大片面交通运送,经过对道网中的纽带道口信号灯配时和相位谐和能有用遍及交通工作成果,是面向灵活都会筑树的纽带咨询本质[1]。死板道通信号配时设备一般有两种竣工格局:①将道道空间消息作图后经过衡量几许消息竣工;②设备数学模子寻觅主旨函数最优解竣工。以绿波谐和为例,死板设备使用干道上信号灯之间的距离及轿车的行进的绿波速率建筑搀和整型线性方案方程,求使绿波带宽最大的方程解[2-5]。上述设备具有以下规模性:①全数车辆都必需以相仿速率举办行进(即绿波速率),一朝有少量车辆与绿波速率差异较大,将捣乱全部部队导致绿波功率差;②死板设备需求发车次第维护相对安定的速率,倘若车流改变大会使预备绿波功率低浸。

  因此,MDP标题本性是寻觅最优的方针函数π,使得智能体从纵景象况S′首要的抉择举动能满足情况行为价钱函数Qπ(s, a)取得最大值。遵从贝尔曼方程[20],第t次抉择的情况行为价钱函数的仅于第t-1次抉择的情况行为价钱函数相合,因此情况行为价钱函数可简化为

  (3) 抉择向量全数维度数值之和必需幼于某一固定最大值(信号灯周期吐露不可抢先大常人能忍受的距离,譬喻5 min)。

  由MDP外表可得,方针函数π遵从情况向量S和抉择向A预备智能体下一步抉择,因此需求定义使命智能体正在地舆道网下的抉择向量A。智能体改变信号灯各相位的放行年代来抵达交通谐和方针,使命智能体的抉择向量为保全信号灯每一相位的绿灯时长的高维数组。本文中,单道口使命智能体的抉择向量A应满足以下要求:

  (2) 抉择向量每一维度的数值必需大于某一固定最幼值(信号周期吐露信号灯从绿变红,再变绿的全部年代长度,为了保证行人能以往常速率经过,其必需大于某一与道口宽度相合的固定值)。

  正在MDP标题中,智能体差异情况下做出抉择举动不一律,方针函数吐露正在现时情况下智能体施行多个候选抉择的无妨,其输入参数为现时情况s(s∈S)和抉择向量a(a∈A),其输出成果为每一候选抉择的无妨。令π吐露方针函数,则π(s, a)吐露正在智能体正在情况s要求下,施行方针a的概率。倘若智能体遵从方针函数π举办MDP,正在第t次施行抉择的报答值为Rt,其情况从st改变至st+1并得报值rt的经过吐露为

  本文连接马尔可夫序列抉择特征,提出一种根据深化操练的双层智能体协同职掌操练设备。正在第1层针对单个道口竣工粗调操练,智能体经过观赏道口每一车道的列队长度调控信号配时,竣工单个道口不堵塞;第2层将多个粗调操练后的智能体模子放入地舆搜蚁合,竣工多道口的协同微调操练。实验成果注脚,与死板算法比较本文设备正在观赏年代缩短7.03%,泊车次数删去12.56%,迷糊量遍及8.3%。其他,根据深化操练竣工的交通信号谐和职掌或许遵从道口车道列队长度及时改变配时方案,或许更好地适配于繁复多变的交通境况。

  使命智能体可以保证各自穿插道口不会交通堵塞,即每一使命智能体的交通壅塞数为0。管制智能体正在此根基进步一步对上述使命智能体举办协同职掌,保证全部地舆道网的交通工作成果最优。管制智能体的情况向量和抉择向量与使命智能体犹如,其维度是全数使命智能体维度之和,分手代表全数道口列队长度和绿灯配时。因此,本节首要定义管制智能体的报答函数。

  正在深度深化操练中[21],智能体将情况行为值存入以s和a为索引的深度神经搜蚁合,经过从连续的与境况交互并取得报答函数反响更新神经收集,终究能使神经搜蚁合存储的情况行为值能切当点拨智能体正在境况中施行报答值最高的序列抉择。

  将2.2.1节操练所取得的使命智能体放入地舆道网中,正在管制智能体谐和下竣工地舆区域的协同优化操练。本文实验智能体每3个信号周期更新情况行为值神经收集,仿照时长10 800 s为一次迭代。本文实验采纳地舆道网中车辆均匀观赏年代、均匀泊车次数和迷糊量3个方针举动优化交通成果系数。如图 5所示,3项验证方针经由操练后的成果都有所遍及(均匀观赏年代和泊车次数删去,迷糊量增进),并且当迭代抵达必定次数后收敛,声明本设备具有用性。经过预备,成果30次迭代比最初始30次迭代,均匀观赏年代删去19.12%,均匀迷糊量增进21.47%,均匀泊车次数删去了3%。

  (1) 倘若调控交通前壅塞数为0,调控后交通壅塞数大于0,注脚调控后使交通境况从不堵塞情况改变为壅塞情况,返报值-1