基于强化学习的LEO卫星信道分配方案

抽象的

低地球轨道（LEO）卫星网络中的延迟，成本和损失低，这在全球移动通信系统中发挥了枢轴作用。由于用户的不均匀分布，现有的信道分配方案不能适应波束之间的负载差异。本文在卫星资源池的基础上提出了利用集中资源池的LEO卫星的网络架构，并设计了固定信道预分配和动态信道调度的组合分配。动态信道调度可以根据服务要求分配或回收免费通道。钢筋学习中的Q学习算法符合光束之间的频道要求。此外，指数梯度下降和信息强度更新加速了Q学习算法的收敛速度。仿真结果表明，与拉格朗日算法通道分配（LACA）方案相比，该方案与固定信道分配（FCA）方案相比，该方案提高了系统供需比率为14％。结果还表明，我们的分配方案可以有效利用渠道资源。

1.介绍

近年来，随着无线通信技术的发展，地面蜂窝网络面临着数据流量的爆炸式增长。虽然地面蜂窝网络具有时延短、带宽大的优点，但仍存在一定的局限性[1］．由于地理环境和经济的限制，蜂窝网络难以覆盖海洋、沙漠、森林、岛屿等特殊区域。海洋导航、地质勘探、环境应急救援等场景救援需要全天候、宽覆盖、高可靠的通信模式。卫星通信具有覆盖范围广、地域限制小、系统容量大等优点，可以很好地解决上述问题。

卫星通信系统经历了全球梁，区域梁和点束的发展。点光束之间的灵活资源分配可以进一步提高系统性能。在各种类型的卫星中，LEO卫星具有低路径损耗，短信延迟和柔性轨道位置的特点[2］．Leo Constellations可以实现全球地区的无缝覆盖[3.那4.］．随着卫星通信技术的发展，卫星间链路(intersatellite link, ISL)和星上处理(on-board processing, OBP)可以独立于地面网络支持卫星路由和数据处理。IP技术的成熟和可靠性也使IP技术在卫星网络中的应用成为未来的趋势[5.］．除了通信有效载荷外，卫星还携带广播自动定向监视(ADS-B)有效载荷，主要用于飞机飞行监视和跟踪飞机位置报告，以及导航增强有效载荷。地面网关站也能够同时与多颗卫星通信，综合来自不同卫星的数据流[6.］．卫星制造和发射成本的降低也促进了低轨道卫星互联网产业的快速发展。低轨道卫星网络正在成为未来全球移动通信系统的重要组成部分。

卫星通信系统是典型的资源受限系统。可用频谱，电源，时隙和其他资源非常稀缺和珍贵[7.］．卫星通信系统迫切需要一种有效的网络资源分配方案来解决上述问题。由于卫星移动引起的覆盖动态变化和地面用户的不均匀分布，交通负荷一直在变化，而星载资源在工厂设置下是固化的。传统的固定通道分配(FCA)方案难以适应快速变化的业务需求。动态信道分配(Dynamic channel allocation, DCA)可以实现资源跨波束调度，且具有比FCA更高的资源利用率[8.］．业务请求是通信网络中的离散动态过程，当前时间的分配结果将在随后的时间内影响决定。现有的动态信道分配算法专注于Leo卫星系统的瞬时性能，并忽略信道分配过程中的时域相关问题[7.］．

强化学习(RL)作为一种新兴技术，为解决复杂决策问题提供了一种新的解决方案[9.］．在快速增长的数据和复杂系统结构的背景下，RL可以更好地适应复杂的决策问题，这对于传统算法很难。通过将卫星资源分配与RL相结合，卫星系统的决策能力可以很好地增强[7.］．

本文考虑了卫星通信系统中的服务分配和信道分配的时间相关性。Q学习算法用于LEO卫星中的动态信道分配。主要捐款如下：(我)在低轨道卫星网络中引入星载资源池来管理信道资源。资源池集信息处理、资源分配和资源获取于一体，实现信道的跨波束调度。使系统能够更好地适应波束之间的业务差异。(2)提出了一种两步分配方案，组合固定信道预分配和动态信道调度来安排信道。该系统在到达之前为每个光束单元预配一些固定通道;动态通道分配计划频道根据服务请求。（iii）RL提高了系统对资源配置的决策能力。该问题被描述为一个带有状态空间、行动空间和奖励函数的马尔可夫决策过程。系统通过Q-learning算法训练最优的渠道分配策略，进行渠道资源分配。（iv）指数梯度下降和信息强度更新加快了算法的收敛速度，提高了LEO卫星系统的决策速度。

本文的其余部分安排如下。在部分2，我们给相关的工作。在部分3.，描述了基于星载资源池的LEO卫星网络体系结构，建立了信道分配模型和问题优化策略。第一部分给出了算法的具体内容和分配过程4.．在部分5.，给出并讨论了仿真结果。最后，在第一部分给出了结论6.．

在这一节中，我们介绍了低地卫星网络和卫星资源分配的相关工作。

2.1。Leo卫星通信系统

由于技术和成本的优势，LEO卫星星座的规模越来越大。大规模的星座可以更好地实现全球覆盖，极大地扩展系统容量[10］．在高度复杂和频繁变化的系统中，考虑底层网络组件由于用户行为而产生的负载是至关重要的。海量的业务量也对低轨卫星通信系统的服务质量提出了挑战[11］．由于卫星系统不同于地面网络，因此研究人员根据卫星系统的特殊性，采用了一些特殊的帧和协议，包括数据中继卫星(DRS)系统、延迟容忍网络(DTN)和性能增强系统(PES)。然而，这些基于TCP/IP的卫星通信协议移动性差、开销大、复杂度高[4.］．此外，大多数现有的卫星网络协议仅适用于中轨地球同步轨道卫星。因此，低轨道卫星的网络架构和资源管理系统显得尤为重要。

2．2．LEO卫星网络体系结构

最近，商业LEO卫星系统的建设在世界各地都处于活跃状态，但很难避免网络架构和资源管理中的一些挑战。Meo卫星网络中O3B系统的体系结构和OneWeb系统采用透明的转发机制。这两个系统没有界面网络，郊游和切换功能，并且当业务高度动态时，系统资源利用率很低[12］．铱星和Spacex的体系结构依赖于ISL来实现智能技术网络，但是它们的网络技术相对落后，控制平面和转发平面高度耦合，资源调度机制需要更多的人为干预，这一切都降低了资源利用效率[13］．为了解决上述问题，研究者们在低轨卫星网络体系结构和相应的资源分配方案上做了大量的工作。

作为广泛使用的资源管理单元，其在地面无线网络中，资源池可以根据服务要求实现资源共享和动态调度，提高频谱效率。然而，目前的作品主要关注地球门站（EGS）的资源池架构设计或卫星网络虚拟化的集中管理，而不是卫星资源池。参考 [14]提出了一种基于资源池架构的EGS设计方案。通过整合数字化，资源池可以实现信号处理和基带处理功能，有效提高卫星网络中高速数据通信资源的利用率。针对EGS“烟囱”架构存在的问题，[15那16]基于资源池提出架构，以解决EGS系统的不稳定性。研究人员比较了两个架构，没有资源汇集，发现资源池系统架构更可靠，同时提高了设备资源使用的效率和灵活性。参考 [17目前，分析了卫星网络中资源限制与业务需求的矛盾，并提出了“板载资源虚拟化”的概念。此外，研究人员通过资源共享和协作管理构建了一个任务导向的卫星网络资源管理模型，并通过资源共享和协作管理进行了载的资源分配。在现在的阶段，卫星通信正在为不同的功能和不同系列卫星创建合适的操作控制系统，以实现资源的有效利用[18］．

2.3。Leo卫星资源分配方案

卫星资源分配方案直接影响用户的QoS和系统性能。参考 [19[通过子校验算法，考虑最大总系统容量和中间结构之间的折衷以获得最佳分配方案。参考 [20.通过计算和比较不同传输模式和强干扰的用户传输速率来优化分配策略。参考 [21[透析了多芯卫星系统的物理层结构，简化了地面用户的三维坐标系到赤道平面中的二维坐标系。此外，研究人员根据卫星束覆盖区域和传输功率计算最大信道容量。参考 [22[提出了一种光束跳跃算法，可根据业务分布调整光束尺寸。参考 [23]采用启发式算法实现频段选择和光束分配，采用拉格朗日双算法和水填充辅助拉格朗日双算法实现电力分配。参考 [24]提出混合随机访问和按需访问的信道分配方案，从而降低了吞吐量阈值内的系统延迟。该方案为具有不同延迟敏感性的服务提供了有效的服务解决方案。上述卫星资源分配方案在某些方面提高了系统性能。但是，它们只关注系统的瞬时性能，并忽略资源分配过程中的时间相关性。前一次的分配结果将间接导致随后的分配效果，这无疑会影响系统资源利用率。

卫星信道分配可以看作是一个序列决策问题，在每个间隔内对到达的用户请求进行决策T.．RL是一种很好的适应这一决策问题的方法。参考文献(25那26]利用增强学习解决卫星物联网(SIoT)中的信道分配和拥塞控制问题。与传统算法相比，RL算法在能量消耗和阻塞率方面都有很大提高。参考 [27]将单智能体深度强化学习(deep reinforcement learning, DRL)扩展到多智能体，并提出了一种协同的多智能体深度强化学习方法，以提高传输效率，以更低的复杂度达到预期目标。参考 [28]讨论了一种异构卫星和多种业务需求下RL与资源分配相结合的方案，并论证了DRL在异构卫星网络(HSN)中的应用效果。然而，关于低轨卫星资源分配的研究还很少。大部分的研究都集中在MEO和GEO卫星上。因此，本文将RL应用于LEO卫星资源分配。我们采用新兴技术，以不同的方式解决低轨卫星信道分配的挑战。

3.系统模型

在本节中，我们提出了一种基于板载资源池的Leo卫星网络架构，并详细解释集中资源分配。此外，我们基于用户供需比率建立优化模型。

3．1．LEO卫星网络框架

数字1显示Leo卫星网络架构。在网络层中，相邻的卫星通过ISL传输数据，多种卫星协作完成全局覆盖范围。集中资源池可以管理频道，计算，缓存和其他资源。在链路层中，网络控制中心（NCC）通过从卫星上传数据来为用户提供服务。边缘云计算设备通过多卫星继电器连接。星座网络上的空闲计算资源也可以用作边缘云设备。Leo Constellation由众多Leo卫星组成，可以为全球区域的城市，郊区和海洋中的用户提供服务。

数字2显示Leo卫星中集中资源池的结构。每个集中资源池是整个系统的核心，它集成了信息处理，资源分配和资源集合。卫星之间的资源通过开关面料连接，资源实时分配。中央管理单元在开关结构下集中管理BBU。对于单个卫星，由高性能处理器组成的集中资源池可以在其覆盖范围内处理所有光束的服务，如图所示3.．与传统的动态资源分配相比，资源池集中的卫星可以实现资源分配的横梁。集中式资源池不仅可以为用户的请求处理和分配资源，还可以根据各个波束的资源利用情况进行资源调度，以适应业务差异。

3．2.信道分配模型

一颗低地轨道卫星N通过分阶段阵列天线在地面上的梁，由一组表示．系统可用的通道由一组表示那系统总带宽是．光束的用户可以由一组表示．

系统通过波束之间的频率复用来分配通道。此外，通道和电源分配矩阵定义如下：在哪里在矩阵中V.那代表了频道是用在横梁上的吗那否则不是。一束和一系统的最大传输功率为和那分别。每个光束的信道增益可以由增益矩阵表示

对于一个用户在梁中那在通道中收到的有用信号和思考干扰如下:

SINR可由方程式(3.）和（4.）;进一步，渠道率在英吉利海峡可由下式计算: 在哪里N_0.是噪声功率谱密度，是否为用户分配带宽．为了评估系统性能，用户供需比率定义如下：

在方程(6.），用户的请求率。卫星频道分配可以看作是一个间隔的序列决策问题T.．我们的优化目标是在有限的渠道资源下最大化用户供需比。因此，将渠道分配表示为如下优化:

优化目标（7.)是最大化系统的供需比。约束条件为:用户服务速率之和不能超过系统容量，信道发射功率之和不能超过总发射功率限制，单波束内信道发射功率之和不能超过单波束功率限制。

4.信道分配方案

RL的目的是提高Leo卫星系统在信道分配过程中的决策能力，以进一步提高资源利用。在本节中，我们定义了状态空间，动作空间和奖励功能问：- 学习算法和采用问：-learning算法训练最优信道分配策略。

数字4.显示卫星系统与环境的交互过程。环境是卫星系统中地面用户的集合，状态是系统用户的信道分配状态。另外，操作是系统为用户分配通道。我们将卫星系统的信道分配建模为马尔科夫决策过程(MDP)。MDP是一组具有马尔可夫属性的序列决策过程。MDP包含一组状态那行动那报酬，以及州过渡概率．状态转换概率指环境向新状态过渡的概率执行行动后状态下．MDP的目标是指定一个最大化代理商的奖励的策略。我们在本文中使用无模型方法，这不需要建模状态转换概率。根据既定的优化问题，我们定义了各州，行动和奖励。

4．1.国家的定义

根据各波束内用户的信道分配构造状态矩阵。在哪里那代表没有用户, 表示用户分配的用户，并且表示用户分配的通道。矩阵列的数量是所有光束中的最大用户数，行是系统波束。当所有请求用户被分配通道或系统没有可用频道时，培训过程达到终止状态，分配过程结束。

4．2.行动的定义

系统从操作集中选择合适的通道并根据当前状态将这些通道分配给用户。通道分配被定义为动作：

代理从动作集中随机选择动作的概率．代理也选择最大动作问：概率有价值．当训练步骤足够时，每个状态的动作值问：表将收敛到最佳值。

4.3。奖励定义

奖励是根据当前状态的代理机构在代理机构的情况下对代理的反馈，可用于衡量操作的性能。适当的奖励设置可以指导代理商更好地培训最佳策略。优化的目标（7.)是最大化系统供需比。因此，我们将奖励函数设置为一个与供求比正相关的函数。

4.4。算法优化

以加速收敛问：- 学习算法，我们基于原件进行两种改进问：-学习算法:指数梯度下降和信息强度更新策略。

指数梯度下降法是随机勘探概率在行动选择过程中，随着训练步骤的增加呈指数递减，如下式所示: 在哪里是最大的训练步骤数。以较大的概率进行探索，可以保证训练初期动作选择的多样化，避免陷入局部最优;随着训练步长的增加，算法的搜索概率开始下降，选择贪心概率较大的最优行动可以加快算法的收敛速度。

信息强度更新策略是定义信息强度以表达动作的质量并更新问：按信息强度列表。信息强度在等式中定义（12）。它反映了当前国家的行动质量，在哪里默认为1。的问：只有当奖励大于当前状态下的最大奖励时，表才会更新。此外,问：表更新如启发式函数所示，在以下等式中定义：

在信息强度的指导下，启发式功能更新了最佳行为。通过迭代积累，代理人将培训国家行动决策计划，以最大的奖励。

4.5。权衡分析

首先，为了简化分配过程，我们假设每个信道的发射功率和信噪比都相同。然后，培训的时间问：-DCA高度依赖于状态和动作的数量。状态和行动的数量很大程度上决定了最终分配方案的质量。由于卫星通信系统对时延有严格的要求，我们适当减少了状态和动作的数量，从而缩短了算法的训练时间。

4.6。分配过程

分配方案有两个步骤：要求的固定信道预算和动态信道分配。在每次服务请求到达之前，系统首先为每个光束单元预先释放一些固定信道;修复了预先曝光后，如果信道资源不能满足用户在某些光束中的需求中，则资源池将执行动态信道分配。桌子1显示卫星系统信道分配过程。


初始化系统参数

1	preallocation：分配m每个波束的通道
2	为业务请求时间t= 1:T.
3.	如果资源丰富;回收剩余资源
4.	别的resource is poor:动态分配
5.	从资源池中分配资源
6.	initialize parameter, learning rate折扣系数那初步探索概率那问：桌子
7.	Reconstruct state based on business request
8.	为episode = 1：max_集
9.	尽管（是终端状态）
10	Confirm initial state
11	Update explore probability
12	选择最好的或选择随机
13	Execute action, get reward
14	Update问：桌子
15	跳转到下一个州
16	结束
17	End of training, output问：桌子
18	根据情况选择最佳策略问：桌子
19	Channel allocation
20.	结束
21	结束

5.仿真结果与讨论

为了验证所提动态信道分配方案的性能，我们在MATLAB平台上进行了仿真实验，并将所提方案与FCA方案和LACA方案进行了比较。

系统在每个服务间隔中接收用户在每个光束中的请求（服务到达模型系统受到参数的泊松分发。那服务持续时间受到参数的负数指数分布的影响那带宽请求受到参数的正常分布的影响那）。系统对请求进行集中统计后，将信道资源分配给每个用户，统计供需比和阻塞率。桌子2显示了卫星系统的具体参数。


仿真参数	价值

卫星的高度	500公里.
下行频率	10.7-12.7 GHZ.
最大的梁	40
渠道数量	16
最大传输速率	1000 Mbps
服务速率阈值	100 kbps
最大传输功率	23 dbw.
最大波束功率	20瓦分贝
梁的天线角度	1°
学习率	0．1
折扣系数	0．9
初步探索概率	0．9
最大步骤	10000
服务到达率	10、40次/小时
业务时间	[3,6]分钟

与仿真算法相比，FCA方案采用平均分配。带宽资源均匀分布给所有用户。LACA方案采用供需（MDSV）的最小方差，比较不同场景中三种方案的性能。

5．1.波束数变化场景下的系统性能

在本场景中，所有波束流量分配参数相同。波束数从10个增加到50个，模拟接入用户数逐渐增加，可用资源由丰富过渡到稀缺。数字5.和6.给出了三种方案在波束数逐渐增加的情况下的系统性能。

如图所示6.，随着光束数的增加，系统阻塞率也随之增加。这是因为随着波束范围的扩大，现有的卫星通信系统接入的用户越来越多，分配给每个用户的带宽资源也减少了。当波束数增加到16时，系统开始过载并阻塞;同时，与FCA方案和LACA方案相比，所提出的Q-DCA方案可以进一步提高系统的供需比。例如，当波束数达到20时，三种方案的系统供需比分别为0.725、0.645和0.615，这意味着提出的Q-DCA算法比FCA方案和LACA方案的性能分别提高了12%和18%。

我们分析了三种分配方案的计算时间差异，如图所示7.．由于FCA方案采用统一分配原则，计算次数相对较少，因此其计算时间最小。对于LACA格式，随着光束的增加，需要更长的时间来计算函数极值。在Q-DCA中，我们使用训练后的策略进行渠道分配。在每个服务请求下，只有问：每次都需要更新表以获得最佳分配方案。虽然FCA方案需要最少的时间，但是当资源紧张时，它具有最高的阻塞速率。Q-DCA方案的时间复杂性低于LACA方案。

5.2。光束号固定方案中的系统性能

在这种情况下，卫星梁的数量固定为10，而波束的业务请求从900 Mbps增加到1700 Mbps，模拟用户从稀疏变为密集的场景。数字8.和9.在波束数固定的情况下，给出了三种方案的系统性能。

当光束的数量固定为10时，系统供需比率随着总系统流量的增加而降低。可以看出，当业务请求总数超过1000 Mbps时，系统开始阻止。此时，系统业务请求已超出系统有效载荷。当业务请求为1500 Mbps时，三种方案的系统供需比例分别为0.589,0.542和0.475。同时，当阻塞速率为30％时，三种方案的系统流量分别为1620 Mbps，1500 Mbps和1430 Mbps。换句话说，与前两种算法相比，所提出的Q-DCA方案可以进一步提高系统业务处理能力，同时确保相同的系统阻塞速率。

5.3。频谱利用率和算法融合性能

在这种情况下，卫星光束的数量为10，系统的总业务量为1000 Mbps。比较原始的收敛速度问：- 学习算法和改进问：- 系统资源精确耗尽时的算法。数字10显示了两种算法的收敛性能的比较。

如图所示10，原本的问：- 在大约4000步后开始算法开始收敛，而改进问：- 在大约2000个步骤后开始算法开始收敛。反映在实际应用方案中，改进问：-学习算法已经可以将系统处理时间缩短一倍，从而缩短车载处理延迟。

数字11分析原版的频道利用率问：-学习算法和改进的问：- 系统资源丰富和稀缺时的学习算法。可以看出，除了算法的收敛速度之外，两个算法的频道利用率几乎相同，不同的系统资源是否丰富或稀缺。因此，改进的算法不会改变其系统资源的利用率。

六，结论

提出了一种基于卫星资源池的LEO卫星网络体系结构。系统通过集中的资源池管理信道资源，以适应波束间的流量差异。我们采用的问：-学习算法的RL动态信道分配。仿真部分分析了FCA、LACA和Q-DCA方案在不同场景下的系统性能和时间复杂度。分析表明，该方案在信道分配方面具有较好的性能。进一步分析了该算法的收敛性问：-学习算法及其对信道利用率的影响。仿真结果表明了该方法的有效性和收敛性。

数据可用性

用于支持本研究结果的数据可根据要求可从相应的作者获得。

利益冲突

提交人声明有关本文的出版物没有利益冲突。

致谢

认知无线电与信息处理教育部重点实验室主任项目(CRKL180104)，网络与交换技术国家重点实验室开放基金项目(北京邮电大学)(SKLNST-2020-1-08)，广西高校中青年教师基础科研能力提升项目(20119ky0255);山西省国家科学基金项目(201801D121116);广西科技基地和人才专项(2018AD19048)。

参考

h .梁CRAN架构下无线网络资源管理研究，北京邮电大学，北京，中国，2016。
L. Liu，低轨卫星通信位置管理与用户接入技术研究中国成都电子科技大学，中国，中国成都大学。
C. qi，近地轨道卫星物联网体系结构研究，南京邮电大学，南京，中国，2019。
Zhao C. Qiu, H. Yao, F. r Yu, F. Xu, and C. Zhao， " Deep Q-learning aided networking, caching, and computing resources allocation in software-defined satellite-terrestrial networks， "车辆技术的IEEE交易，卷。68，没有。6，pp。5871-5883,2019。查看在：出版商的网站|谷歌学术搜索
何德杰，尤p，杨绍伟，“低轨卫星通信网络的移动性管理”，中国空间科学与技术，第36卷，第2期。3，页1-14,2016。查看在：谷歌学术搜索
F. Fang和M. G. Wu，“全球狮子座卫星星座的发展研究”空气动力导弹杂志，卷。5，不。6，pp。88-92,2020。查看在：谷歌学术搜索
s . j .刘卫星通信系统动态资源管理技术研究，北京邮电大学，北京，中国，2018。
Z. Liu，“基于加固学习的卫星通信资源分配算法研究”移动通信，第43卷，no。5，页27-32,2019。查看在：谷歌学术搜索
S. Richard和B. Andrew，强化学习:介绍，中国成都电子科技大学，2017年。
Y. L. Liu和L. D. Zhu，“大型狮子座卫星网络的次优路由算法”国际网络，电脑和通信研讨会的诉讼程序1-5页，ISNCC，罗马，意大利，2018。查看在：谷歌学术搜索
李国兴，朱海平，冯世东，“低轨卫星网络的动态建模与仿真”，载第十一届IEEE国际通信技术会议论文集，pp.37-40，ICCT，杭州，2018年。查看在：谷歌学术搜索
H. J. Liu，P. Qin，N. W. Wang，Z. Lu和B. Zhou，“Leo Constellation建筑设计与资源分配算法研究”中国电子科学研究院学报第13卷，没有。06，页631-635,2018。查看在：谷歌学术搜索
Qi X.和Sun J. Y.，“软件定义的LEO小型卫星网络的进展和挑战”，载于第16届卫星沟通年会的诉讼程序，PP。89-93，中国北京，2020年。查看在：谷歌学术搜索
王k . W. Wang S.，“基于资源池架构的卫星地面站设计”，通讯世界第26卷，第2期。8，页16-17,2019。查看在：谷歌学术搜索
张敏敏，“资源池体系结构在卫星通信地面站网络中的应用分析”，信息技术与信息技术，第7卷，第101-102页，2019。查看在：谷歌学术搜索
张建华，刘爱军，“资源池架构下卫星通信中心站系统可靠性分析”，通信技术第53卷，第2期。2, pp. 375-381, 2020。查看在：谷歌学术搜索
w·t·翟卫星网络虚拟化资源管理技术研究西安电子科技大学，西安，2019。
徐永清，“资源池架构对现代建筑的影响”，卫星通信地球站网络建设，第37卷，no。11, 160-162页，2020年。查看在：谷歌学术搜索
Liu A. J. Wang, X. F. Pan, and L. L. Jia， " multi- point -beam satellite communication system for multi- point -beam satellite communication system， " in chinese journal of applied communication . (sci检索2013机电科学、电气工程与计算机国际会议论文集沈阳，中国，2013。查看在：出版商的网站|谷歌学术搜索
G. Colavolpe, A. Modenini, A. Piemontese, A. Ugolini，“多波束卫星系统中多用户检测的应用”，载于IEEE通信会议的诉讼程序， vol. ICC, pp. 898-902，伦敦，英国，2015。查看在：谷歌学术搜索
A. Ivanov, M. Stoliarenko, S. Kruglik, S. Novichkov, A. Savinov，“LEO卫星的动态资源分配”，载于2019年国际无线通信和移动计算会议的诉讼程序，IWCMC，PP。930-935，中国北京，2019年。查看在：谷歌学术搜索
张涛，张磊，史丹，“跳波束通信系统中的资源分配”，载于IEEE / AIAA第37号数字航空电子系统会议2018年的诉讼程序，DASC，pp.1-5，伦敦，英国，2018年。查看在：谷歌学术搜索
左p，彭涛，W.凌虎，王伟，“认知卫星通信下行资源配置”，《计算机科学与技术》IEEE访问，第6卷，第75192-75205页，2018。查看在：出版商的网站|谷歌学术搜索
张荣，何勇，崔国强等，“卫星网络随机接入和DAMA信道分配方案”，载于IEEE国际会议论文集，PP。1-6，深圳，中国，2016年。查看在：谷歌学术搜索
B. Zhao，J. Liu，Z. Wei，以及我，“您，”卫星互联网节能信道分配的深度加强学习方法“IEEE访问，卷。8，pp。62197-62206,2020。查看在：出版商的网站|谷歌学术搜索
Z.Wang，J. X. Zhang，X. Zhang和W. B. Wang，“卫星互联网上的加固学习拥堵控制”第11届无线通信与信号处理国际会议论文集，pp.1-6，中国西安，2019年。查看在：谷歌学术搜索
胡晓，“基于多智能体深度强化学习的移动终端柔性卫星有效载荷”，车辆技术的IEEE交易，第69卷，不。9, 9849-9865, 2020。查看在：出版商的网站|谷歌学术搜索
B.邓，C.江，H. Yao，S. Guo和S. Zhao，“下一代异构卫星通信网络：资源管理整合和深度加强学习”IEEE无线通信，卷。27，不。2，pp。105-111,2020。查看在：出版商的网站|谷歌学术搜索

移动信息系统