QL-OLSR:一种基于Q-Learning思想优化的移动自组织网络路由协议
熊轲, 金鑫, 刘强
北京交通大学 计算机与信息技术学院,北京 100044

第一作者:熊轲(1981—),男,陕西汉中人,教授,博士,博士生导师.研究方向为移动互联网络,物联网,5G 网络等.email:kxiong@bjtu.edu.cn.

摘要

现有的OLSR中能够完成对全网路由信息的交互,但是随着节点的移动速度增加,网络拓扑也在快速动态变化,从而导致了路由信息更新慢,网络性能下降,端到端时延大、包丢失率增加和节点吞吐量小等问题.针对上述问题,提出了一种基于Q-Learning思想的移动自组网OLSR路由策略,该路由策略从节点移动性、链路速率和节点跳数三方面进行考虑.与传统方法相比,Q-Learning能够在线学习,适应MANET高度动态变化的拓扑结构,检测不同时间点的节点移动程度,使每个节点能相应的更新路由度量,从而提高路由协议的稳定性,提供可靠的路由路径.实验结果表明,改进的方法具有更低的端到端延迟、更小的包丢失率以及更高的吞吐量.

关键词: Q-Learning思想; OLSR; 路由策略; 节点移动性; 路由路径
中图分类号:TP393 文献标志码:A 文章编号:1673-0291(2020)02-0066-08
QL-OLSR: an optimization routing protocol in MANET based on Q-Learning
XIONG Ke, JIN Xin, LIU Qiang
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China
Abstract

The existing OLSR can complete the interaction of the routing information of the whole network. However, as the moving speed of the node increases, the network topology also changes rapidly and dynamically, which leads to slow update of routing information, large end-to-end delay, increased packet loss rate, low node throughput, and reduced network performance. Aiming at the above problems, this paper proposes a mobile ad hoc network OLSR routing strategy based on Q-Learning idea. The routing strategy considers node mobility, link rate and node hop count. Compared with the traditional method, Q-Learning can learn online, adapt to the highly dynamic topology of MANET, and detect the degree of node movement at different time points, so that each node can update the routing metric accordingly, thus improving the stability of the routing protocol, providing a reliable routing path. Experimental results show that the improved method has lower end-to-end delay, smaller packet loss rate, and higher throughput.

Keyword: Q-learning thought; OLSR; routing policy; node mobility; routing path

移动自组织网络[1](Mobile Ad Hoc Networks, MANETs)又被称为无线自组织网络(Wireless Ad Hoc Networks)、多跳网(Multi-hop Network), 它是一种新型、多跳、自组织、无中心的无线网络.移动自组网最开始在军事方面应用, 保持通信联络在现代化的战场上是十分重要的事情.在自组网中, 每个用户节点不但能够自由移动, 同时还拥有路由器和主机两个功能[1].一是作为主机, 终端需要运行各种面向用户的应用程序; 另一方面, 作为路由器, 终端运行相应的路由协议, 然后通过路由策略和路由表来完成对数据的分组转发和路由维护.因此, 路由协议是MANET网络中一个重要的研究问题.一般情况下, 根据不同的路由发现策略, 将路由协议分为先验式路由协议、反应式路由协议以及混合式路由协议[2].在先验式路由协议中, 到达所有目的节点的路由在开始时就已决定, 通过定期的路由更新进程来维持, 典型的先验式路由协议有OLSR(Optimized Link State Routing Protocol).在反应式协议中, 路由是在数据源使用路由发现进程发出请求决定的, 典型的反应式路由协议有AODV(Ad hoc On-Demand Distance Vector Routing).

通过文献[3]对两种协议的对比可知, 由于OLSR无论是否有通信需求, 每个节点都周期性地进行路由分组广播, 通过交换路由信息, 维护一张到达其他节点的路由表, 节点一旦需要发送报文, 就可以根据路由表及时获取路径信息; 而AODV采用的是一种当有业务要发送时才查找路由的选择方式, 当有需要发送数据时才发起路由查找过程, 不能提前获知全网的拓扑, 所以时延相对OLSR要大; OLSR的主要特点是通过在本节点的邻居节点中选择一部分节点作为多点中继(MPR)节点, 只有MPR节点才能转发TC控制分组, 以此来减少控制消息的洪泛.所以, 随着业务的增多, AODV路由开销几乎成正比例增长, 而OLSR的路由开销不受业务数据产生大小的影响, 保持稳定.综上可知, OLSR路由协议在路由抖动、路由开销、平均端到端时延等方面要优于AODV等路由协议.

传统的路由协议难以适应节点快速移动, 拓扑快速动态变化的网络.现有针对OLSR的路由协议设计大多关注于路由的优化, 目的在于解决路由问题, 进而解决节点快速移动的问题.文献[4]引入模糊视觉技术, 自动调整消息的发送频率, 基于改变消息的传播机制对快速路由进行改进.文献[5]提出了一种基于Q-Learning的自适应路由模型QLAR用来检测网络中每个节点的移动程度以及新的度量Qmetric, 提出的新的度量考虑到了期望传输计数度量和移动因子度量, 使路由性能在移动性条件下得到, 但是提出的路由模型应用实验结果并未体现.文献[6]提出了一种基于链路感知的LR-OLSR路由协议, 该协议对节点负载、链路投递率和链路可用性等信息感知并进行路由表的计算, 提高吞吐量, 达到负载均衡, 用于无线Mesh网络.文献[7]提出了一种移动预测LP-OLSR协议, 该协议针对移动路由使用卡尔曼滤波对节点的位置进行预测, 预测链路未来时刻的连接状态, 在链路失效前重新计算路由, 减少因为链路中断产生的时延, 用于多径备份路由.文献[8]基于多目标Q-Learning提出了一种能够同时考虑信息报传输的跳数、传输的能量消耗、路径中节点的安全性的路由策略, 但是并没有实验结果证明, 只是提出了一种想法.文献[9]提出了使用Q-Learning来构作容错路由算法的方法, 利用Q-Learning算法的自适应性来实现路由容错, 但是它只在二维格子环境下的实验证明了算法的可行性, 并没有考虑到移动自组网络.

本文作者考虑了节点移动性、链路速率和节点跳数三方面特征, 提出了一种基于Q-Learning思想的OLSR路由协议策略, 它能够在线学习, 适应MANET高度动态变化的拓扑结构, 提高路由协议的稳定性, 提供可靠的路由路径.

1 OLSR路由协议策略
1.1 路由权值优化

目前在移动自组织网络中, 已经提出了许多通用的链路度量标准, 其中标准版的OLSRv1(RFC3626)使用Hop Count作为链路度量, 而在其后的OLSRv2版本中, 加入了Link Metric, 修改了路由消息格式, 设计成可以修改权值的形式.OLSR通过使用Dijkstra算法对网络拓扑对有向边的边权值进行计算, 从而获得路由度量值, 进而得出路由表, 选出最优的路由路径[10].为了保证网络具有低时延和高吞吐量, 一般路由权值设计考虑路径长度、链路稳定性、链路速率等因素.

本文主要借用文献[10]中针对链路稳定性和链路速率对路由权值设计优化的思想, 在此基础上, 基于节点移动性和链路速率对路由度量进行优化.

1.1.1 基于节点移动性的度量优化

在MANET网络中, 特别是在移动自组网中, 由于节点的快速移动, 从而导致链路变化速度快, 节点周围的链路稳定性影响路由质量, 所以, 当链路不稳定时, 就会造成高时延, 从而降低网络性能.为了保证MANET的性能, 文献[10]中提出了MF(Neighbor node’ s Mobility Factor)和AER(Neighbor node’ s Average Encounter Rate)两种基于链路稳定性的方法.但是只考虑了AER, 具有片面性, 所以本文将这两种方法结合.

MF即邻居节点的移动因子, MF的值是在连续交互2~3次Hello报文后, 邻居节点差异进行计算.其中Hello报文是OLSR路由协议中的一种控制消息报文, 用于发现邻居, 建立一个节点的邻居表, OLSR采用周期性地广播Hello报文来侦听邻居节点的状态, 而且Hello报文不同于OLSR的另一种控制消息报文, TC报文必须被广播到全网, 它只在一跳的范围内广播.

计算MF的公式如下

MFi=1-nitΔnit-THellonitnit-THello (1)

式中: ni(t)表示节点i在时刻t的节点集; THello是发送一次Hello包的时间间隔; nitΔnit-THello是连续发送两次Hello包后邻居节点的变化, 即 nitnit-THello-nitnit-THello的差值.

AER的计算公式如下

AER=EiT (2)

式中: AER是每个节点的平均相遇率; Ei是在一定时间段T内节点最新遇到的节点数量; T为连续交互2~3个Hello报文的时间.

1.1.2 基于链路速率的度量优化

对于MANET网络, OLSR在建立路由时, 当数据包从一个节点传输到另一个节点时, 则认为经过一跳, 那么跳数越少, 端到端时延就会越少, 然而在无线网络中, 并不是跳数少的路由路径就是最佳的路由路径.举例如图1所示, 从源节点S到目的节点D, 跳数最少的路由路径为S→ 4→ D, 然而, 并不是最优路径, 因为S→ 4→ D路由路径的传输速率要低于S→ 1→ 2→ 3→ D路由路径, 跳数较多的路径反而最优.

图1 路由路径选择(单位: M/bps)Fig.1 Routing path selected (unit: M/bps)

由于链路速率可以在一定程度上反映链路的容量, 所以本文通过跨层设计获取下层数据的传输速率, 传输速率高的链路在单位时间内可以传输更多的信息.进而给出基于数据传输速率的路由度量(Routing Metric).第 i个节点的路由度量值为

RMi=pow2, LSipow2, maxLS (3)

式中: LSi代表了节点i速率的大小; pow(x, y)为x的y次方函数; max (x)x所有取值的最大值函数.需要说明的是式(3)采用幂函数型的分数度量方式, 原因如下:通常大多数方案采用当前链路速率值和链路速率的最大值的比值作为路由度量值, 但这种情况可能会出现节点和节点之间的度量值差值很小, 不利于后续比较和计算, 而通过幂函数型的分数度量方式来设计路由度量, 可以有效避免这种情况的发生, 并可以反映链路容量和链路速率的关系.

1.2 基于Q-Learning思想的路由策略

1.2.1 Q-Learning简介

Q-Learning是一种不需要估计环境模型的强化学习算法.强化学习[11, 12, 13]是机器学习中的一个领域, 强调如何基于环境而行动, 以取得最大化的预期利益.强化学习与其他机器学习算法不同的地方在于:没有监督者, 只有一个奖励信号; 反馈是延迟的, 不是立即生成的; 时间在强化学习中具有重要的意义; 智能体的行为会影响之后一系列的数据.

图2为强化学习的基本模型, 强化学习通过利用环境评价性回报信号来修正动作, 以极大化期望的回报为学习目标.智能体需要根据当前状态 stS来采取动作 atA, 获得相应的回报 rtR之后, 再去改进这些动作, 使得下次再到相同状态时, 智能体能做出更优的动作[11, 12, 13].

图2 强化学习基本模型Fig.2 Basic model of RL

Q-Learning算法[14]的更新规则为

Qst, at1-αQst, at+αrt+γ·maxakAst+1Qst, at (4)

式中: Q(st, at)是状态动作对的值函数, 表示在状态 st时来执行对应的动作 at; α表示学习率; γ表示折扣率; rt表示所获得的奖励值.为了使算法收敛, 需要每个状态动作对都能被反复的访问、修正它的值.

1.2.2 路由策略

本文提出的基于Q-Learning[15]的路由策略是将Q-Learning应用在OLSR路由协议中, 从而达到优化路由的作用.

针对本文提出的路由策略, 使用Q-Learning进行建模.首先Agent的学习环境为整个MANET网络, 学习网络中节点的移动性.学习过程是由一个三元组 {S, A, R}组成, 其中, 定义Agent智能体为网络中的节点, 每个节点都是一个学习主体; Agent的状态空间表示为 S={s1, s2, s3}, 即网络中除去源节点本身的其他节点, 即除去源节点之外可以到达的所有节点组成的状态空间; 对于动作 A={a1, a2, a3}, 表示Agent的活动空间, 被定义为当前节点传输数据包到下一跳节点, 即从当前节点中的一跳邻居中选择合适的节点作为路由路径中的下一跳节点, 将数据包从当前节点转发到下一跳节点的过程为一次动作; 最后, 奖励 ri的范围是[0, 1], 该奖励由MF和AER的归一化参数值来决定, 其中 α的取值为0.5, 默认AER和MF的影响相同, 邻居节点变化越多, 即获取的奖励就越大.

ri=·AERi+(1-)MFi (5)

在网络中, 每一个智能体Agent维护一个q表Q(d, n), 即每一个节点维护一张路由度量值表, 用来记录到达除本节点外所有节点的 q值, OLSR路由路径拓扑可以通过此表1中的路由度量值建立.

表1 q表 Tab.1 q-table

本文选择链路速率作为影响学习快慢的因素, 随着链路速率的变化, 节点的学习进度也跟着变化, 速率越快, q值更新就越快.Q-Learning优化函数为

Qid, n1-RMiQid, n+RMiri+γ·minn'NnQnd, n' (6)

式中: d表示目的节点; n表示从当前节点i的一跳邻居节点中选择的下一跳节点; x表示目的节点的一跳邻居, 也就是从源节点到目的节点的过程中, 最后一个需要经过的节点; Nn为节点n的所有一跳邻居节点.具体的算法流程如下

Algorithm 1 QL-OLSR Routing Strategy

Input:QTable Q, CurrentNode c, SourceNode s

Output: qValue

1: N=getPacketNums (P);

2://The interaction time of the Hello packet

3: T=THello* 2;

4: c=s;

5:for i=1:Ndo

6: c=getNeighborTable (c);

7:MF = Equation(1);

8:AER = Equation(2);

9://choose next hop node n

10:if isNextHop (n)then

11:RM = Equation(3);

12: Q= Equation(6); //update qtable

13:else

14:break;

15:end if

16: c=n;

17: Q= Equation(6); //update qtable

18:end for

19: qValue = getMin( qValue);

20:Return qValue;

以一次建立路由路径的过程为例:如图3所示, 每一个节点的 q表的初始值都设为0.假设源节点S的广播包已发送到目标节点D, 节点1和5是目标节点D的一跳邻居, 根据式(5), 节点1和5到目的地D的奖励值分别是 Q1Q5, 大小为1和0, 假设最终得到的q值分别为0.8和0.48.广播TC消息时, SD间所有节点会更新目的地址值, 同时不断接收Hello消息来更新邻居节点表.当前节点会一直通过式(6)来更新 q表, 直到当前节点建立完整路由且在3个Hello消息时间内邻居节点不再变化, 从而停止学习过程.图3中2节点的邻居节点有 S, 1, 3, 4, 5, 当2收到任何一个邻居节点发来的Hello消息包的时候, 都会从中抽取到达目的节点 D的最小 q值.以节点5为例, 因为 Q5(D, 5)是已知的, 根据式(6)计算出节点2到5对应的 q值为0.3, 并更新节点2的 q表.同理, 收到其他节点的Hello消息包也如此处理, 这样就更新了整个节点2的 q表, 从而得到了节点2到 D的最小q值, 即, Q2(D, 5)的值为0.3.通过不断收到Hello消息包, 节点2不断修改其与邻居节点的 q值.当节点 S收到其邻居节点发来的Hello消息包时, 可以得到节点S到D的q值.

图3 网络拓扑示例图Fig. 3 An example of network topology

综上, 可以从OLSR中的Dijkstra算法中计算路由路径得到从S到达D的具有最小q值的一条路径S→ 2→ 5→ D, 当节点的邻居节点有所变化的时候, 节点会动态更新自己的q表, 从而使网络能够动态适应拓扑的变化, 及时地做出响应.

2 仿真结果与性能分析

实验采用OPENT Modeler 16.0进行建模和仿真, 构建基于Q-Learning思想的QL-OLSR协议模型, 并与标准版的OLSR协议进行结果分析对比.

2.1 仿真设置

实验安装的OPNET16.0已经实现标准版的OLSR路由协议的软件包, 设置仿真参数如表2所示, 构建的仿真场景如图4所示, 使用IP业务流进行测试, 分别在静止和移动两种场景下对网络性能进行分析评估.

表2 仿真参数 Tab.2 Simulation parameters

图4 仿真场景Fig.4 Simulation scenarios

2.2 性能分析

在不同节点速度的场景下测试QL-OLSR, 并与标准版OLSR路由协议进行端到端时延、时延抖动、业务接收量和吞吐量对比分析.在网络拓扑中, 加入随机移动的模块, 设置节点的移动速率为0、5、10、15、20、25 m/s, 其他仿真参数条件不变.

2.2.1 端到端时延和时延抖动结果分析

端到端时延和时延抖动结果如图5和图6所示.节点的移动速率在0、5、10、15、20、25 m/s情况下QL-OLSR与OLSR端到端时延和时延抖动对比, 可知, 随着节点移动速率的增加, 网络拓扑变化更快, 网络需要重新更新路由表.因此, 在节点移动速度不断变化的过程中, 节点的移动速度越快, 节点的平均端到端时延逐渐增加.但是QL-OLSR协议的延时要明显低于OLSR路由协议, 同时, 改进后的路由策略的时延抖动相对较小, 也较稳定, 没有特别大的变化, 这是由于加入了Q-Learning思想及考虑节点稳定性和链路速率后, 增加了节点稳定性, 可以快速适应网络拓扑的变化, 及时更新路由表, 从而减少由于信道堵塞造成的等待延时.端到端时延和时延抖动对比见如图7和图8.

图5 平均端到端时延对比Fig.5 Average end-to-end delay comparisons

图6 平均时延抖动对比Fig.6 Average delay jitter comparisons

图7 端到端时延对比Fig.7 End-to-end delay comparisons

图8 时延抖动对比Fig.8 Delay Jitter comparisons

可以得出:不论在静态场景还是在节点移动速率为10 m/s的情况下, 改进后的路由策略的网络更加稳定, 端到端时延也更低, QL-OLSR的时延抖动更小, 更加适应拓扑变化快的网络.

2.2.2 业务接收量结果分析

业务接收量如图9所示, 可以看出, 在静止的环境下(节点移动速率为0 m/s), QL-OLSR和OSLR两种协议的业务接收量差不多一致, 这是因为此时网络拓扑的变化情况不是很大.但是当节点移动速率增加时(节点速率为10 m/s), 两种协议的业务接收量就有了差距, 可以得出, QL-OLSR的业务接收量优于OLSR协议, 此时节点移动速率快, 网络拓扑变化快, 所以在接收业务时就需要更多的时间, 当信道堵塞时, 包就无法传输到目的节点, 从而造成包丢失的情况, 而QL-OLSR可以快速适应网络拓扑变化的过程, 故会有更小的丢包率, 更高的业务接收量.

图9 业务接收量对比Fig.9 Received traffic comparisons

此外, 可以看到在200 s时, 节点的业务接收量为0, 由于此时路由还未收敛, 源节点发送的包目的节点无法接收, 而在190 s之后, 路由收敛, 节点开始接收业务, 进而计算业务接收量.

2.2.3 吞吐量结果分析

吞吐量如图10所示, 在不同的移动速率下, QL-OLSR的吞吐量明显更高, 在单位时间内成功传送数据的数量增多.在节点不移动的情况下, 受链路速率影响, QL-OLSR的吞吐量更高但是基本变化不大; 而当节点移动速率为10 m/s时, 会更加明显, 这也说明了QL-OLSR相比OLSR路由协议在节点的移动速率变化的情况下, 要更加适应网络的拓扑变化.图11中可以得到在仿真时间为700 s左右的时候, 路由计算次数基本保持一致.

图10 吞吐量结果对比Fig.10 Throughout comparisons

图11 路由计算次数Fig.11 Routing calculate time

综上可得, 在网络拓扑变化快的场景中, OLSR协议的路由在建立的过程中, 由于节点的移动速度过快, 导致节点建立路由的时间更长, 所以端到端延迟更大; 而QL-OLSR中采用了Q-Learning的思想, 网络会选择链路容量高的路由, 在保证节点稳定性的情况下建立合适的路由, 从而保证了网络有更好的性能、更低的时延、更高的吞吐量.

3 结论

1) 基于Q-Learning思想后的路由策略加入OLSR路由协议中后, 更加适用于高速移动、节点移动性快的移动自组网场景.

2)相比传统的OLSR路由协议, 改进后的QL-OLSR路由协议在端到端延迟、时延抖动、业务接收量等方面有明显的优势.

参考文献
[1] 陈林星, 曾曦, 曹毅. 移动Ad Hoc网络: 自组织分组无线网络技术[M]. 北京: 电子工业出版社, 2006: 13-17.
CHEN Linxing, ZENG Xi, CAO Yi. Mobile Ad Hoc network: self-organizing group wireless network technology [M]. Beijing: Publishing House of Electronics Industry, 2006: 13-17. (in Chinese) [本文引用:2]
[2] JAMEII S M, FAEZ K, DEHGHAN M. AMOF: adaptive multi-objective optimization framework for coverage and topology control in heterogeneous wireless sensor networks[J]. Telecommunication Systems, 2016, 61(3): 515-530. [本文引用:1]
[3] KAUR D, KUMAR N. Comparative analysis of AODV, OLSR, TORA, DSR and DSDV routing protocols in mobile ad-hoc networks[J]. International Journal of Computer Network and Information Security, 2012, 5(3): 39-46. [本文引用:1]
[4] 刘强, 阮章静. 基于模糊视觉与快速路由的移动自组织网络路由协议FH-OLSR[J]. 北京交通大学学报, 2017, 41(5): 24-31.
LIU Qiang, RUAN Zhangjing. FH-OLSR routing protocol based on hazy sighted link state and fast routing technology in mobile Ad Hoc networks[J]. Journal of Beijing Jiaotong University, 2017, 41(5): 24-31. (in Chinese) [本文引用:1]
[5] SERHANI A, NAJA N, JAMALI A. QLAR: a Q-learning based adaptive routing for MANETs[C]// IEEE/ACS 13th International Conference of Computer Systems and Applications. Agadir, 2016: 1-7. [本文引用:1]
[6] 王靖, 李芳芳, 于全. 基于链路状态感知的无线Mesh网优化路由协议[J]. 计算机科学, 2012, 39(11): 37-40.
WANG Jing, LI Fangfang, YU Quan. Link state reasoning based optimized routing protocol for wireless Mesh networks[J]. Computer Science, 2012, 39(11): 37-40. (in Chinese) [本文引用:1]
[7] 周文佳, 陈旿, 肖迪, . MANET网络中一种基于灰色区域的移动预测路由协议及多径备份路由扩展[J]. 西北工业大学学报, 2012, 30(5): 739-745.
ZHOU Wenjia, CHEN Wu, XIAO Di, et al. An effective mobility prediction routing protocol based on gray zone and its multi-path routing extension in MANET networks[J]. Journal of Northwestern Polytechnical University, 2012, 30(5): 739-745. (in Chinese) [本文引用:1]
[8] 刘燕燕. 基于多目标Q-Learning的MANET自适应路由策略[J]. 科技信息, 2008(25): 406-413.
LIU Yanyan. Multi-objectives Q-Learning based MANET self-adaptive routing strategy[J]. Science & Technology Information, 2008(25): 406-413. (in Chinese) [本文引用:1]
[9] 姚怡, 覃华, 苏一丹. 基于Q-Learning的自适应容错路由算法的研究[J]. 计算机工程与应用, 2006, 42(10): 123-125.
YAO Yi, QIN Hua, SU Yidan. The research of adaptive fault-tolerant routing algorithm based on Q-learning[J]. Computer Engineering and Applications, 2006, 42(10): 123-125. (in Chinese) [本文引用:1]
[10] 沈玮阳, 刘强, 欧阳峰. 基于节点稳定性与跨层优化的MANET路由设计[J]. 计算机工程, 2017, 43(10): 44-49.
SHEN Weiyang, LIU Qiang, OUYANG Feng. Design of MANET routing based on node stability and cross-layer optimization[J]. Computer Engineering, 2017, 43(10): 44-49. (in Chinese) [本文引用:3]
[11] 张德干, 葛辉, 刘晓欢, . 一种基于Q-Learning策略的自适应移动物联网路由新算法[J]. 电子学报, 2018, 46(10): 2325-2332.
ZHANG Degan, GE Hui, LIU Xiaohuan, et al. A kind of new routing algorithm with adaptivity for mobile IOT based on Q-learning[J]. Acta Electronica Sinica, 2018, 46(10): 2325-2332. (in Chinese) [本文引用:2]
[12] 郑力明, 李晓冬, 李小勇. RLAR: 基于增强学习的自适应路由算法[J]. 计算机工程与设计, 2011, 32(4): 1190-1194.
ZHENG Liming, LI Xiaodong, LI Xiaoyong. RLAR: Adaptive routing algorithm based onreinforcement learning[J]. Computer Engineering and Design, 2011, 32(4): 1190-1194. (in Chinese) [本文引用:2]
[13] BOYAN J A, LITTMAN M L . Packet routing in dynamically changing networks: a reinforcement learning approach[C]// International Conference on Neural Information Processing Systems. Morgan Kaufmann Publishers Inc, 1993: 671-678. [本文引用:2]
[14] WATKINS C C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279-292. [本文引用:1]
[15] 刘芬, 隋天宇, 王叶群. 基于Q学习的Ad Hoc网络路由协议的改进与研究[J]. 计算机与数字工程, 2019, 47(2): 373-376.
LIU Fen, SUI Tianyu, WANG Yequn. Improvement and research of ad hoc network routing protocol based on Q learning[J]. Computer & Digital Engineering, 2019, 47(2): 373-376. (in Chinese) [本文引用:1]