复杂 复杂 1099-0526. 1076-2787 印地语 10.1155 / 2017/9063762 9063762 研究文章 求解广义线性矩阵方程的一般复发性神经网络 http://orcid.org/0000-0002-3928-1642 张ydF4y2Ba 1 http://orcid.org/0000-0001-5532-9530 1 洪良 1 延安 自动化工程学院 中国电子科技大学 成都611731 中国 uestc.edu.cn. 2017年 31 7. 2017年 2017年 13 03. 2017年 19 04. 2017年 31 7. 2017年 2017年 版权所有©2017 Zhan Li等人。 这是一篇在知识共享署名许可下发布的开放存取的文章,它允许在任何媒体上无限制地使用、传播和复制,只要原始作品被适当地引用。

提出了一种用于在线求解具有全局收敛性的广义线性矩阵方程的非线性递归神经网络的一般框架。如果采用线性激活函数,非线性递归神经网络的神经状态矩阵可以全局和指数收敛到GLME的唯一理论解。此外,相对于使用线性激活函数的情况,对于一般的非线性递归神经网络模型,提出了两种特定类型的非线性激活函数,以获得更优的收敛性。举例说明了一般非线性递归神经网络模型的有效性,以及在上述非线性激活函数的作用下,该模型具有较好的收敛性。

国家自然科学基金项目 61603078 中国电子科技大学 ZYGX2015KYQD044
1.导言

求解广义的线性矩阵方程(GLME)及其变体是科学和工程领域的广泛遇到的一个重要问题(例如,反馈控制系统设计[ 1],智能天线阵列处理[ 2])。众所周知的Lyapunov方程和Sylvester方程可以被视为GLME的主要特殊情况,具有减少的系数和可变矩阵,这对过去几十年来说已经吸引了研究人员和工程师的广泛兴趣[ 3.- 7.]. 在不丧失一般性的情况下,在本简介中,GLME问题的表述形式如下: (1) L. = 1 P. 一种 L. X B. L. = C 在哪里 一种 L. R. m × m B. L. R. N × N , 和 C R. m × N 表示系数矩阵和 X R. m × N 表示要获得的未知矩阵。通常情况下,分析解决问题的方法很复杂( 1)将以传统的数值方式进行。保证此类glme( 1)用唯一的理论解,系数矩阵可解 一种 L. R. m × m B. L. R. N × N 实际上它们的特征值都可以同时为正或负。在许多情况下,( 1)可以是多个或甚至没有,这取决于哪种组合矩阵 一种 L. B. L. 将与未知矩阵相关联 X .许多传统的串行方法由于其固有的缺陷可能不足以有效地解决在线GLME,并行计算方法似乎更可取[ 8.- 13].

被视为另一种有希望的并行计算方法,基于模拟求解器的动态神经网络已经全面地在计算智能领域进行了综合[ 12 14- 16].与许多传统的数值方法不同,基于动态神经网络的方法可以在特定的并行和分布式软件或/和硬件架构上更容易实现[ 17 18].这可以极大地扩大现有神经网络在高性能计算的各种潜在应用领域的效用。动态神经网络的一种基本类型——递归神经网络,类似于自然的瞬态和稳态过程,已被应用于大规模模拟/数字电路原型的在线并行计算任务[ 19].

我们在这篇简短的文章中的主要贡献是开发一个通用的递归神经网络模型框架来解决GLME问题( 1).由于神经网络硬件实现中经常出现非线性现象[ 19[所提出的一般非线性框架可以更适合基于模拟的计算。一般复发性神经网络的神经状态可以全局收敛到理论解决方案。如果通过线性函数激活一般复发性神经网络,则可以实现指数收敛。另一方面,与线性模型相比,某些非线性形式的这种通用神经网络可以能够获得更准确的解决方案和更快的会聚,因此我们提出了两种特定的非线性激活功能,用于一般复发性神经网络模型以实现优越的性能解决glme( 1).

2.通用递归神经网络求解器

在本节中,我们展示并分析了经常性神经网络的一般模型来解决glme( 1). 如果该模型由线性函数激活,则状态矩阵 X T. R. m × N 一般递归神经网络的全局收敛性和指数收敛性都是唯一的理论解 X R. m × N .通过利用特定的非线性奇数单调增加的激活功能,预计会达到优异的收敛性。在随后的小节中,我们将与其线性形式一起讨论通用非线性复发神经网络模型的收敛性。

2.1。一般非线性神经网络模型

本文提出了求解GLME的一般非线性递归神经网络模型( 1)详情如下: (2) X ˙ T. = - γ R. = 1 P. 一种 R. T. F S. = 1 P. 一种 S. X T. B. S. - C B. R. T. 在运营商 F · R. m × N R. m × N 为非线性激活函数数组,其每个标量值映射单元 F · R. R. 是一个单调增加的奇数激活函数和下标 · T. 表示矩阵/向量的转置。递归神经网络模型( 2)可以作为经常性神经网络的延长非线性版本概括[ 16[随后的线性模型。对于一般非线性复发性神经网络模型( 2),我们将有以下定理。

定理1。

神经状态矩阵 X T. R. m × N 一般非线性递归神经网络模型的研究( 2)从任何初始值开始 X 0. R. m × N ,可以全局收敛到理论解 X R. m × N GLME公司( 1).

证明。

首先,我们定义神经状态与理论解决方案之间的距离 X T. = X T. - X R. m × N .因此,用 X T. = X T. + X R. m × N 进入神经网络模型( 2),则可进一步等价转换为 (3) X ˙ T. = - γ R. = 1 P. 一种 R. T. F S. = 1 P. 一种 S. X T. B. S. B. R. T. 接下来,相应的Lyapunov函数候选定义如下: (4) V. X T. T. 3. = X T. F 2 = V. E. C X T. 2 2 在哪里运营商 · F · 2 , 和 分别表示矩阵的Frobenius规范,两种载体标准和矩阵之间的克朗克蛋白产品 V. E. C X T. R. m N 生成通过堆叠所有列向量获得的新列向量 X T. R. m × N 一起。

时间衍生 V. X T. T. 3. (5) V. ˙ X T. T. 3. = 2 V. E. C X T. T. V. E. C X ˙ T.

考虑以下导航平等(基于)( 2), (6) V. E. C X ˙ T. = - γ R. = 1 P. B. R. 一种 R. T. F S. = 1 P. B. S. T. 一种 S. V. E. C X T. 我们可以进一步推导( 5.)作为 (7) V. ˙ X T. T. 3. = - 2 γ V. E. C X T. T. R. = 1 P. B. R. 一种 R. T. · F S. = 1 P. B. S. T. 一种 S. V. E. C X T. = - 2 γ L. = 1 P. B. L. T. 一种 L. V. E. C X T. T. · F L. = 1 P. B. L. T. 一种 L. V. E. C X T.

为非线性激活函数阵列 F · ,其单独的标量标值 F · 是奇怪的,单调地增加,可以保证 (8) F = > 0. R. 0. ; = 0. R. = 0. 因此 V. ˙ X T. T. 3. 0. ,这意味着 X T. R. m × N 全局会聚到零矩阵 0. R. m × N 根据Lyapunov理论的说法[ 20.];也就是说,州矩阵 X T. R. m × N 的 ( 2)全球收敛于理论解决方案 X R. m × N GLME公司( 1).所有这些以上都完成了证明。

根据定理 1,一般非线性神经网络模型( 2)可以被若干奇单调递增函数激活,求解GLME ( 1)与存在的理论溶液(独特或多个),这将广泛扩大( 2)面向流形模型生成。众所周知,在神经网络的模拟/数字电路原型中经常会遇到非线性元件[ 19 21];引入非线性激活函数有助于潜在的设计和含义。另一方面,解决GLME确实需要更快的收敛( 1)当线性模型可能不满足增加的计算要求时。预期,非线性神经网络模型( 2)可以获得卓越的融合( 10)如果利用了适当的激活函数。在诱导上卓越的非线性功能激活模型之前,我们在此解决了一般非线性复发性神经网络的线性模型,并讨论了其收敛性。

2.2. 线性神经网络模型

解决GLME ( 1),我们首先定义了标量标值的错误功能 E. T. = L. = 1 P. 一种 L. X T. B. L. - C F 2 / 2 [ 0. + 有关联 ( 1),运营商 · F 代表Frobenius规范。以消除误差函数 E. T. 归零为 T. 增加,采用梯度下降方式: (9) X ˙ T. = - γ E. T. X T. 设计参数的地方 γ > 0. 缩放收敛速度。

根据矩阵微分理论的预备知识[ 22], ( 9.)进一步扩展为以下动态形式: (10) X ˙ T. = - γ S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X T. B. S. B. R. T. + γ L. = 1 P. 一种 L. T. C B. L. T.

线性模型( 10),我们将有以下定理。

定理2。

如果是线性神经网络模型( 10)用于求解GLME( 1),从初始条件开始 X 0. R. m × N ,状态矩阵 X T. R. m × N 的 ( 10)可以全局指数收敛到唯一的理论解 X R. m × N

证明。

使用转换 X T. = X T. - X R. m × N 之间 X T. X 初始条件 X 0. = X 0. - X R. m × N ,动力学方程( 10)进一步等效推导如下: (11) X ˙ T. = - γ S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X T. B. S. B. R. T. + γ L. = 1 P. 一种 L. T. C B. L. T. - γ S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X B. S. B. R. T. = - γ S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X T. B. S. B. R. T. + γ R. = 1 P. 一种 R. T. C - S. = 1 P. 一种 S. X B. S. B. R. T.

L. = 1 P. 一种 L. X B. L. = C 考虑到( 11)可以简化为 (12) X ˙ T. = - γ S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X T. B. S. B. R. T.

同样,我们定义以下Lyapunov-Function候选者: (13) V. X T. T. 10 = X T. F 2 0. 它的时间导数是 (14) V. ˙ X T. T. 10 = T. R. 一种 C E. V. X T. T. X T. T. X ˙ T. = T. R. 一种 C E. - 2 γ X T. T. S. = 1 P. R. = 1 P. 一种 R. T. 一种 S. X T. B. S. B. R. T. = - 2 γ L. = 1 P. 一种 L. X T. B. L. F 2 0. 存在一个正标量 α > 0. [ 23]是最小的特征值 L. = 1 P. B. L. T. 一种 L. T. L. = 1 P. B. L. T. 一种 L. 满意 (15) L. = 1 P. 一种 L. X T. B. L. F 2 α X T. F 2 如果glme的独特解决方案条件( 1)坚持住。因此,我们可以 (16) V. ˙ X T. T. - 2 γ α V. X T. T. ; 那是, (17) V. X T. T. 经验值 - 2 γ α T. V. X 0. 0. 可以进一步等效地重写为 (18) X T. - X F 经验值 - γ α T. X 0. - X F

由Lyapunov理论[ 20.], ( 14) 和 ( 18)表示状态矩阵 X T. R. m × N 的 ( 10)可以全局和指数收敛到唯一的理论解 X R. m × N GLME公司( 1).这样证明是完整的。

值得注意的是,如果glme( 1)具有多种理论解 X R. m × N ,标量 α 等于零。在这种情况下,线性模型( 10)至少可以保证其全球融合,但不能明确指数收敛速度。

3.具有特定非线性激活函数的优越收敛性

根据定理 1奇单调递增激活函数能够保证一般递归神经网络的全局收敛性( 2).如果采用线性激活函数,则一般复发性神经网络模型减少到线性模型( 10). 这种线性模型( 10)拥有全球指数收敛性。为了实现线性模型的全球指数收敛的卓越融合( 10),应适当选择特定类型的非线性激活函数。基于上述考虑,提出了两类非线性激活函数:幂和函数和双曲正弦函数来激活一般的递归神经网络模型( 2).数字 1显示使用的三个上述激活功能的曲线绘图( 2).相应地,我们将在两个神经网络模型的融合属性上具有以下定理。

一般递归神经网络模型( 2)使用三种类型的激活功能:线性,功率和( N = 3. )和双曲正弦( ξ = 3. ).

定理3。

如果是一般复发性神经网络( 2)由幂和函数激活 F = K. = 1 N 2 K. - 1 ,状态矩阵 X T. R. m × N 的 ( 2)可以全局优收敛到唯一的理论解 X R. m × N ,与线性模型相比( 10).

证明。

为了证明( 2)由Power Sum函数激活 F = K. = 1 N 2 K. - 1 在这种情况下,我们定义以下lyapunov函数候选: (19) V. P. S. X T. T. V. X T. T. 3. = V. X T. T. 10 它的时间导数是 (20) V. ˙ P. S. X T. T. = - 2 γ Δ T. F Δ = - 2 γ 一世 = 1 m N Δ 一世 F Δ 一世 = - 2 γ 一世 = 1 m N Δ 一世 K. = 1 N Δ 一世 2 K. - 1 = - 2 γ 一世 = 1 m N K. = 1 N Δ 一世 2 K. - 2 γ 一世 = 1 m N Δ 一世 2 = V. ˙ X T. T. 10 在哪里 (21) Δ = Δ 1 Δ 2 ...... Δ 一世 ...... Δ m N T. R. m N Δ 一世 R. 表示 一世 向量的第Th元素 L. = 1 P. B. L. T. 一种 L. V. E. C X T. R. m N .这意味着在使用电源和函数时( 2)具有对零矩阵的全局收敛性,与一般情况相比,具有更大的李雅普诺夫函数消失率(即更快的收敛速度)( 10).这样证明是完整的。

定理4。

如果是一般复发性神经网络( 2)被双曲正弦函数激活 F = 经验值 ξ / 2 - 经验值 - ξ / 2 有系数 ξ 1 ,状态矩阵 X T. R. m × N 的 ( 2)可以全局优收敛到唯一的理论解 X R. m × N ,与线性模型( 10).

证明。

同样,定义Lyapunov函数来研究收敛性: (22) V. H S. X T. T. V. P. S. X T. T. = V. X T. T. 10 它的时间衍生是 (23) V. ˙ H S. X T. T. = - 2 γ 一世 = 1 m N Δ 一世 F Δ 一世 = - γ 一世 = 1 m N Δ 一世 经验值 ξ Δ 一世 - 经验值 - ξ Δ 一世 = - 2 γ 一世 = 1 m N j = 1 + ξ Δ 一世 2 j 2 j - 1 !! - 2 γ 一世 = 1 m N Δ 一世 2 = V. ˙ X T. T. 10 这表明当采用双曲正弦激活函数时,非线性递归神经网络模型( 2)与线性模型的情况相比,具有全局矩阵接近零,随着状态矩阵接近零,具有较大的Lyapunov功能消失率(即,更快的收敛)( 10).这些完成了证明。

4.说明性的例子

在本节中,提出了三个示例以说明一般非线性经常性神经网络的效率( 2)在不同类型的激活功能(线性,电量和双曲线正弦激活功能)下,其特定模型用于在线解决GLME( 1).

例1。

让我们考虑下面的GLME L. = 2 (24) 一种 1 X B. 1 + 一种 2 X B. 2 = C 在哪里 (25) 一种 1 = 2 1 1 3. 一种 2 = 6. 2 3. 4. B. 1 = 5. 3. 3. 4. B. 2 = 6. 2 5. 8. C = 3. 4. 5. 6.

GLME( 24)具有独特的理论解决方案 (26) X = - 0.0023 0.0308 0.0395 0.1019 由于系数矩阵的特征值 一种 1 一种 2 B. 1 , 和 B. 2 都是正值。我们采用一般的递归神经网络模型( 2) 和 γ = 1 通过线性函数激活,功率和功能 N = 4. 和双曲正弦功能 ξ = 3.

从图中 2,我们可以观察到解的错误 X T. - X F 在0.02左右降至几乎为零 采用幂和和函数和双曲正弦激活函数,可以获得更高的精度和更快的收敛速度( 2).这些可以证明一般递归神经网络模型( 2)用于解决glme( 24).

解决方案错误 X T. - X F 合成( 2)为GLME ( 24)与独特的理论解决方案 X ,从相同的随机生成的初始状态开始 X 0. R. 2 × 2

例2。

让我们考虑以下多种理论解决方案的GLME X R. 2 × 2 (27) 一种 1 X B. 1 + 一种 2 X B. 2 = C 在哪里 (28) 一种 1 = 1 0. - 1 1 一种 2 = 2 0. 0. 1 B. 1 = 0. 0. 0. 1 B. 2 = 0. 1 0. 0. C = 0. 3. 0. 5.

我们使用线性模型( 10)带设计参数 γ = 1 解决glme( 27).状态矩阵元素的轨迹 X T. R. 2 × 2 如图所示 3..从图中 3.,我们可以看到,从两个不同的初始矩阵开始 X 0. R. 2 × 2 ,状态矩阵 X T. R. 2 × 2 线性模型的应用( 10)分别收敛到两个不同的轨迹(或者说两个不同的理论解) X R. 2 × 2 ). 这表明初始值的选择对递归神经网络的稳态结果影响很大( 2)并确定GLME溶液的收敛点( 27),如果GLME存在多种理论解决方案( 27). 相应地,剩余误差 一种 1 X T. B. 1 + 一种 2 X T. B. 2 - C F 合成( 10)总能在有限时间内从20个不同的初始值减小到零,如图所示 4.

国家矩阵的轨迹 X T. R. 2 × 2 解决glme( 27)具有多种理论解决方案 X ,从两个不同的初始状态开始 X 0. R. 2 × 2

剩余错误 一种 1 X T. B. 1 + 一种 2 X T. B. 2 - C F 合成( 2)用于GLME的解决方案( 27)从二十个不同的初始状态开始 X 0. R. 2 × 2

例3。

让我们在更大的维度中考虑以下GLME L. = 10 (29) L. = 1 10 一种 L. X B. L. = C 其中系数矩阵 一种 L. R. 10 × 10 B. L. R. 10 × 10 , 和 C R. 10 × 10 是否所有正定值都是随机生成的,并且都在区间内 [ - 2,2 ] R. 10 × 10 .我们利用非线性神经网络模型( 2)由功率和和双曲正弦函数和线性模型激活( 10)解决glme( 29)带设计参数 γ = 1 .从表 1,我们可以观察到一般的递归神经网络模型( 2)与线性模型相比,由幂和和和双曲正弦激活函数激活的模型具有更快的误差衰减速度( 10),所有剩余错误都达到了达到的水平 10 - 7. 在1 s。从以上三个例子的计算结果可以看出,所提出的一般非线性递归神经网络可以求解GLME ( 1)问题良好。

通用递归神经网络模型的性能( 2)具有三种不同的激活功能(线性,电量和双曲线),用于解决glme( 29).

剩余错误 L. = 1 10 一种 L. X T. B. L. - C F
时间 T. (s) 线性 电力总和 双曲正弦
T. = 0. S. 37.4543 37.4543 37.4543
T. = 0.1 S. 0.9886. 0.3678 0.5242
T. = 1 S. 4.6368 × 1 0. - 7. 9.7531. × 1 0. - 8. 3.0543 × 1 0. - 7.
结论

在此简介中,我们提出了一种求解GLME的一般复发性神经网络模型。经常性神经网络的一般非线性模型在寻找GLME解决方案中具有全球收敛性。通过具体提出的非线性激活功能,与具有指数收敛速率的线性模型相比,可以实现优异的收敛。显示说明性结果证明了GLME溶液的非线性复发性神经网络模型的有效性和优越性。

利益冲突

作者声明他们没有利益冲突。

致谢

该工作得到了中国国家自然科学基金(NSFC)的支持不支持。61603078和中国电子科技大学中央大学的基本研究资金(uestc)授予否。Zygx2015kyqd044。

埃尔南德斯 V。 昆塔纳 Es 侯爵夫人 m 分布式存储多处理机控制问题中线性矩阵方程的求解 第33届IEEE决策与控制会议记录。第1部(共4部) 1994年12月 448. 454. 2-S2.0-0028755894 Lev-Ari. H。 用应用于多晶体天线阵列处理的线性矩阵方程的高效解 信息与系统通信 2005年 5. 1 123 130 10.4310 / CIS.2005.V5.N1.A5 zbl1116.65050. f Y Loparo. K A。 十,。 Lyapunov方程解决方案的新估算 电气电子工程师研究所。自动控制交易 1997 42 3. 408. 411. 10.1109/9.557586 MR1435832 Zbl0866.93048 2-S2.0-0031098265 kwon. w·H。 月亮 Ys Ahn. S. C. 代数Riccati和Lyapunov方程中的界限:调查和一些新结果 国际控制杂志 1996 64 3. 377 389 10.1080 / 00207179608921634 MR1653293 zbl0852.93005 2-S2.0-0030173646 B. G-R。 通用Sylvester矩阵方程AV-EVF = BW的新解决方案 系统与控制信函 2006年 2 3. 193 198 10.1049 / IET-CTA:20070468 MR2398463 B. G-R。 广义sylvester映射与矩阵方程 系统与控制信函 2008年 57 3. 200. 208. 年代。 Y 求解时变复sylvester方程的非线性激活神经网络 Cyebericics上的IEEE交易 2014年 44 8. 1397 1407 2-S2.0-84904628819. 10.1109 / TCYB.2013.2285166 Y D. j。 具有时变系数的用于求解西尔维斯特方程的经常性神经网络 神经网络上的IEEE事务 2002年 13 5. 1053. 1063. 2-S2.0-0036738835 10.1109 / TNN.2002.1031938 F。 郑ydF4y2Ba T。 求解一类矩阵方程的梯度基于迭代算法 IEEE自动控制事务 2005年 50 8. 1216. 1221. 10.1109/TAC.2005.852558 MR2156053 2 - s2.0 - 26244448321 ZBL06743476 L. j。 F。 一般线性矩阵方程的基于梯度的迭代解 计算机和数学与应用 2009年 58 7. 1441. 1448. 10.1016/j.camwa.2009.06.047 MR2555281 zbl1189.65083 2-S2.0-68749110971 F。 郑ydF4y2Ba T。 耦合Sylvester矩阵方程的迭代最小二乘解 系统与控制信函 2005年 54 2 95 107. 10.1016/j.sysconle.2004.06.008 MR2109576 zbl1129.65306 2 - s2.0 - 10444247504 郑ydF4y2Ba Y 彝族 C。 D. 基于梯度搜索的Lyapunov矩阵方程的改进神经解决方案 信息处理信函 2013年 113 22 - 24 876. 881. 10.1016 / j.ipl.2013.09.002 MR3116229 2-S2.0-84884654719. 郑ydF4y2Ba K. 在线求解Sylvester方程的改进神经动力学方法 信息处理信函 2016年 116 7. 455. 459. 10.1016 / J.IPL.2016.03.004 MR3479178 2-S2.0-84960353661 年代。 君士坦丁群岛 a·G。 拉格朗日规划神经网络 电路和系统II的IEEE事务II:模拟和数字信号处理 1992 39 7. 441. 452. 2-S2.0-0026897309 10.1109 / 82.160169 Hopfield J. J. 具有突发集体计算能力的神经网络和物理系统 美国国家科学院学报 1982 79 8. 2554 2558 MR652033 10.1073 / pnas.79.8.2554 2-S2.0-0020118274 j。 求解线性矩阵方程的递归神经网络 计算机和数学与应用 1993 26 9. 23 34 10.1016 / 0898-1221(93)90003-e Z Y 两个经常性神经网络辅助加速度漂移方案的设计与实验 IET控制理论应用 2013年 7. 1 25 42 10.1049 / IET-CTA.2011.0573 MR3088186 Z Z Y Y Y 基于神经动态的方法的双臂CMG方案,其适用于人形机器人的时变约束 神经网络和学习系统的IEEE交易 2015年 26 12 3251. 3262 10.1109 / TNNLS.2015.2469147 MR3453272 m C。 伊斯梅尔 m 模拟VLSI神经系统的实现 2012年 80 Springer Science&Business Media 撒圈糕点 年代。 Bodson m 自适应控制:稳定性,收敛性和鲁棒性 2011年 快递公司 j。 布鲁克 MA. 广松 K. 具有片上并行学习的CMOS前馈神经网络芯片,用于振荡消除 神经网络上的IEEE事务 2002年 13 5. 1178. 1186. 2 - s2.0 - 0036737353 10.1109 / TNN.2002.1031948 罗杰 a . H。 查尔斯 R. J. 矩阵分析 2012年 2 美国纽约州纽约市 剑桥大学出版社 MR2978290 Y 郑ydF4y2Ba K. 王神经网络解决在线线性方程的全局指数收敛与稳定性 电子信件 2008年 44 2 145 146 2-s2.0-38649104125 10.1049 / el: 20081928