gydF4y2Ba在以前的工作(s .菲奥里,2006),我们提出了一个随机数发生器基于可调非线性神经系统,其学习规则设计基本方程的基础上实现基于查找表的统计数据和(附近地区)。目前的手稿的目的是改善上述随机数生成方法通过改变学习的原则,同时保留有效LUT-based实现。这里提出证明新方法更容易实现和放松一些以前的限制。
<年代p一个ncl一个年代年代="end-abs">
1。介绍
gydF4y2Ba随机数是目前用于各种目的,如:密钥生成、游戏,一些种类的科学实验以及蒙特卡罗方法在物理学和计算机科学(<一个href="#B2">1一个>- - - - - -<一个href="#B13">6一个>]。标准编程环境被赋予统一等基本伪随机信号发生器和高斯的,而通常所需的分布比均匀涉及/高斯。一个简单的示例应用程序的密码生成:随机密码生成器是一个软件,输入从一个随机或伪随机数生成器,并自动生成一个密码。的一个示例应用程序,需要涉及到概率分布在独立分量分析(ICA),<一个href="#B1">7一个>)测试:作为ICA算法的行为可能取决于来源的统计分布,ICA-algorithm测试工具可能需要随机序列发生器能产生随机数按涉及概率分配法。
gydF4y2Ba主要方法在文献获取一批样品具有任意分布从一批样品有一个简单的“转换法”和“反对方法”(<一个href="#B6">8一个>]。在本文中,我们专注于转换的方法,这可能是通过一个可调的神经系统实现,因为一个随机数源的可用性和可调的非线性系统,在一个适当的学习过程,可以获得广泛的伪随机信号发生器类。
gydF4y2Ba著名的非线性神经系统的影响是经其输入的统计分布。特别是,我们假设考虑中的系统所描述的非线性自适应结构转移<年代vg height="13.6125" id="M1" style="vertical-align:-2.34499pt;width:54.9375px;" version="1.1" viewbox="0 0 54.9375 13.6125" width="54.9375" xmlns="http://www.w3.org/2000/svg">
=
(
)
,在那里<年代vg height="12.475" id="M2" style="vertical-align:-1.29163pt;width:73.099998px;" version="1.1" viewbox="0 0 73.099998 12.475" width="73.099998" xmlns="http://www.w3.org/2000/svg">
∈
⊆
ℝ
表示系统输入随机信号概率密度函数<年代vg height="14.7" id="M3" style="vertical-align:-3.21404pt;width:33.412498px;" version="1.1" viewbox="0 0 33.412498 14.7" width="33.412498" xmlns="http://www.w3.org/2000/svg">
(
)
,<年代vg height="14.3875" id="M4" style="vertical-align:-2.83405pt;width:72.800003px;" version="1.1" viewbox="0 0 72.800003 14.3875" width="72.800003" xmlns="http://www.w3.org/2000/svg">
∈
⊆
ℝ
表示输出信号概率密度函数<年代vg height="16.6" id="M5" style="vertical-align:-4.74141pt;width:31.975px;" version="1.1" viewbox="0 0 31.975 16.6" width="31.975" xmlns="http://www.w3.org/2000/svg">
(
)
,如图<一个href="//www.newsama.com/journals/cin/2008/426080/fig1/" target="_blank">1一个>。假设神经系统中的移情是严格单调,即<年代vg height="15.5625" id="M6" style="vertical-align:-2.34499pt;width:61.224998px;" version="1.1" viewbox="0 0 61.224998 15.5625" width="61.224998" xmlns="http://www.w3.org/2000/svg">
(
)
>
0
,尽管<年代vg height="11.2875" id="M7" style="vertical-align:-0.33858pt;width:42.037498px;" version="1.1" viewbox="0 0 42.037498 11.2875" width="42.037498" xmlns="http://www.w3.org/2000/svg">
∈
输入分布之间的关系,输出分布,系统传递函数是(<一个href="#B12">9一个>]
在哪里<年代vg height="16.775" id="M9" style="vertical-align:-2.34499pt;width:39.137501px;" version="1.1" viewbox="0 0 39.137501 16.775" width="39.137501" xmlns="http://www.w3.org/2000/svg">
−
1
(
⋅
)
表示函数的倒数<年代vg height="13.6125" id="M10" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
。通常,(<一个href="#Eq1">1一个>)被解释为一个分析公式,使计算输出分布当输入分布和系统传递函数是已知的。然而,基本方程(<一个href="#Eq1">1一个>)也可以被解释为一个公式时,允许设计非线性系统分布<年代vg height="14.7" id="M11" style="vertical-align:-3.21404pt;width:29.2875px;" version="1.1" viewbox="0 0 29.2875 14.7" width="29.2875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
是已知的和期望的系统响应根据期望的分布<年代vg height="16.6" id="M12" style="vertical-align:-4.74141pt;width:28.700001px;" version="1.1" viewbox="0 0 28.700001 16.6" width="28.700001" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
。事实上,(<一个href="#Eq1">1一个>)微分方程可以写成:<年代p一个ncl一个年代年代="equation" id="Eq2">
一般来说,这样的设计操作相当困难,因为(<一个href="#Eq2">2一个>在未知的<年代vg height="13.6125" id="M14" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
涉及非线性微分方程的解决方案,提供了一个一致的边界条件是确定的。
在最近的贡献(<一个href="#B3">10一个>),我们提出了一个伪随机样本发生器基于非线性单调神经系统的传递函数是用<年代vg height="13.6125" id="M15" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
微分方程的基础上,调整(<一个href="#Eq2">2一个>)。红衣主教的设计方程(<一个href="#Eq2">2一个>)提出了要解决通过(relaxation-type)定点算法。关键的优势的方法<一个href="#B3">10一个>)如下。(一)为了获得fully-tunable神经传递函数,选择查阅表表示。它保证高灵活性在神经传递的形状以及从容的表示和处理涉及数量。(b)定点学习算法表现出快速收敛在基于其他可能的方法,如梯度:不同于这些方法,定点学习算法不需要计算相关函数的导数。
gydF4y2Ba产生的随机数生成方法应该因此阅读作为一个两阶段的过程。第一阶段由红衣主教在解决微分方程(<一个href="#Eq2">2一个>未知函数)<年代vg height="13.6125" id="M16" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
考虑到分布,<年代vg height="14.7" id="M17" style="vertical-align:-3.21404pt;width:29.2875px;" version="1.1" viewbox="0 0 29.2875 14.7" width="29.2875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
和<年代vg height="16.6" id="M18" style="vertical-align:-4.74141pt;width:28.700001px;" version="1.1" viewbox="0 0 28.700001 16.6" width="28.700001" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
作为数据。第二阶段包括在生成输入随机样本的分布<年代vg height="14.7" id="M19" style="vertical-align:-3.21404pt;width:29.2875px;" version="1.1" viewbox="0 0 29.2875 14.7" width="29.2875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
让这种随机抽样,然后通过学习非线性神经系统通过计算输出值<年代vg height="13.6125" id="M20" style="vertical-align:-2.34499pt;width:54.9375px;" version="1.1" viewbox="0 0 54.9375 13.6125" width="54.9375" xmlns="http://www.w3.org/2000/svg">
=
(
)
。随机样本<年代vg height="9.8625002" id="M21" style="vertical-align:-2.29482pt;width:7.875px;" version="1.1" viewbox="0 0 7.875 9.8625002" width="7.875" xmlns="http://www.w3.org/2000/svg">
保证是根据概率密度分布函数<年代vg height="16.6" id="M22" style="vertical-align:-4.74141pt;width:28.700001px;" version="1.1" viewbox="0 0 28.700001 16.6" width="28.700001" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
。
gydF4y2Ba然而,我们认识到的方法<一个href="#B3">10一个>)也遭受一些缺点,即以下。(一)数值收敛的目的,fixed-point-type调优算法的每一步都需要一些标准化的步骤。也就是说,从(<一个href="#Eq2">2一个>),它是很容易看到,当函数<年代vg height="16.6" id="M23" style="vertical-align:-4.74141pt;width:51.900002px;" version="1.1" viewbox="0 0 51.900002 16.6" width="51.900002" xmlns="http://www.w3.org/2000/svg">
(
(
)
)
方法<年代vg height="10.9125" id="M24" style="vertical-align:-0.17555pt;width:7.9375px;" version="1.1" viewbox="0 0 7.9375 10.9125" width="7.9375" xmlns="http://www.w3.org/2000/svg">
0
的计算<年代vg height="15.5625" id="M25" style="vertical-align:-2.34499pt;width:34.025002px;" version="1.1" viewbox="0 0 34.025002 15.5625" width="34.025002" xmlns="http://www.w3.org/2000/svg">
(
)
变得坏脾气的,因此数量<年代vg height="16.6" id="M26" style="vertical-align:-4.74141pt;width:51.900002px;" version="1.1" viewbox="0 0 51.900002 16.6" width="51.900002" xmlns="http://www.w3.org/2000/svg">
(
(
)
)
被取代了<年代vg height="16.6" id="M27" style="vertical-align:-4.74141pt;width:77.5px;" version="1.1" viewbox="0 0 77.5 16.6" width="77.5" xmlns="http://www.w3.org/2000/svg">
(
(
)
)
+
,<年代vg height="13.6125" id="M28" style="vertical-align:-2.34499pt;width:35.262501px;" version="1.1" viewbox="0 0 35.262501 13.6125" width="35.262501" xmlns="http://www.w3.org/2000/svg">
>
0
作为一个小的常数是正确的大小。同时,为了改进学习,每个迭代步骤后,解决方案<年代vg height="13.6125" id="M29" style="vertical-align:-2.34499pt;width:27.799999px;" version="1.1" viewbox="0 0 27.799999 13.6125" width="27.799999" xmlns="http://www.w3.org/2000/svg">
(
)
需要规范化通过仿射尺度,为了控制变量的范围<年代vg height="9.8625002" id="M30" style="vertical-align:-2.29482pt;width:7.875px;" version="1.1" viewbox="0 0 7.875 9.8625002" width="7.875" xmlns="http://www.w3.org/2000/svg">
由线性扩展,或者为了匹配输出分布的真实价值的时刻预选的秩序。反过来,这需要提前计算感兴趣的(封闭形式)时刻输出的分布。(b)尽管仿射尺度,它是不容易控制输出值的范围<年代vg height="9.8625002" id="M31" style="vertical-align:-2.29482pt;width:7.875px;" version="1.1" viewbox="0 0 7.875 9.8625002" width="7.875" xmlns="http://www.w3.org/2000/svg">
,仿射尺度收敛并不能保证在任何情况下感兴趣的,因此不能在任何情况下。(c)开发过程是自定义生成输出分布是对称的(即<年代vg height="16.6" id="M32" style="vertical-align:-4.74141pt;width:93.925003px;" version="1.1" viewbox="0 0 93.925003 16.6" width="93.925003" xmlns="http://www.w3.org/2000/svg">
(
−
)
=
(
)
)或完全向右倾斜(即<年代vg height="16.6" id="M33" style="vertical-align:-4.74141pt;width:59.174999px;" version="1.1" viewbox="0 0 59.174999 16.6" width="59.174999" xmlns="http://www.w3.org/2000/svg">
(
)
=
0
,尽管<年代vg height="13.55" id="M34" style="vertical-align:-2.29482pt;width:35.075001px;" version="1.1" viewbox="0 0 35.075001 13.55" width="35.075001" xmlns="http://www.w3.org/2000/svg">
<
0
只)。不对称或外形分布没有考虑。
gydF4y2Ba在本文中,我们考虑的问题扩展前面的方法生成通过删除约束对称或不对称分布skewedness到右边。同时,我们提出一个方法来避免概率密度函数。选择的解决方案意味着改变的观点基本方程(<一个href="#Eq1">1一个>):不是转换公式(<一个href="#Eq1">1一个>)到微分方程(<一个href="#Eq2">2一个>),我们将它转换成一个新的微分方程,以下简称<我>双重基本方程我>,这将被证明是容易解决和更灵活的运用在实践中,同时保留前面的数字表示/优势。因此,我们将保留相关的有效的数值表示数量已经介绍了工作(<一个href="#B3">10一个>,11一个>),基于“查表”(附近地区)神经激活功能的实现以及有效的数值算法来解决双重基本方程。附近地区被证明是提供一个有效的方式来表示和处理的变量出现在设计了随机数生成算法。过程的突出优势是缺乏硬计算需求除了附近地区处理,由列表的排序、搜索和一些简单的代数操作的号码。
gydF4y2Ba该方法将评估的有效性通过数值实验。特别是,设计实验遵循逻辑,开始时提出的基本评估方法应用于bi-Gaussian分布,然后跟着相对困难些分布,即广义高斯分布和非对称伽马分布。
gydF4y2Ba现有的方法(<一个href="#B10">3一个>是值得讨论。它关注neural-networks-type算法生成随机向量具有任意边际分布和相关矩阵,基于交互的方法。“normal-to-anything”(交互)方法(见,例如,<一个href="#B5">12一个>])是最有效的方法之一,随机向量的一代。在[<一个href="#B10">3一个>),提出了一种技术来生成正态随机向量的相关矩阵基于人工神经网络的方法。以以下方式交互算法生成随机抽样与规定的概率密度函数。首先,生成零均值unit-variance随机样本<年代vg height="11.05" id="M35" style="vertical-align:-3.2316pt;width:12.75px;" version="1.1" viewbox="0 0 12.75 11.05" width="12.75" xmlns="http://www.w3.org/2000/svg">
,<年代vg height="13.575" id="M36" style="vertical-align:-2.26974pt;width:89.5px;" version="1.1" viewbox="0 0 89.5 13.575" width="89.5" xmlns="http://www.w3.org/2000/svg">
∈
{
1
,
⋯
,
}
。然后,生成所需的随机样本<年代vg height="19.674999" id="M37" style="vertical-align:-4.74141pt;width:101.8625px;" version="1.1" viewbox="0 0 101.8625 19.674999" width="101.8625" xmlns="http://www.w3.org/2000/svg">
=
−
1
(
Φ
(
)
)
,在那里<年代vg height="13.45" id="M38" style="vertical-align:-2.21957pt;width:26.924999px;" version="1.1" viewbox="0 0 26.924999 13.45" width="26.924999" xmlns="http://www.w3.org/2000/svg">
Φ
(
⋅
)
表示标准正态随机变量的累积分布函数<年代vg height="16.6" id="M39" style="vertical-align:-4.74141pt;width:30.3375px;" version="1.1" viewbox="0 0 30.3375 16.6" width="30.3375" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
表示所需的累积分布函数,<年代vg height="19.674999" id="M40" style="vertical-align:-4.74141pt;width:180.05px;" version="1.1" viewbox="0 0 180.05 19.674999" width="180.05" xmlns="http://www.w3.org/2000/svg">
−
1
(
)
=
我
n
f
{
∣
(
)
≥
}
,<年代vg height="13.125" id="M41" style="vertical-align:-1.95624pt;width:55.5625px;" version="1.1" viewbox="0 0 55.5625 13.125" width="55.5625" xmlns="http://www.w3.org/2000/svg">
∈
(
0
1
]
。似乎,因此,作为一个转换方法。
gydF4y2Ba大多数已知的随机向量的方法生成的文学强加约束随机向量的大小,其中许多适用只equidistributed的二元分布组件。相反,在交互框架中,边际概率分布向量组件以及它们的相关矩阵可以被指定。获得规定的随机向量生成相关矩阵需要求解一个非线性方程组,这是最严重的问题在这样的方法。文献[<一个href="#B10">3一个>]利用多层感知器神经网络估计正态随机向量的相关性矩阵,因此可以克服NORTA方程涉及的分析算法。而这里的方法是更一般的交互,它适用于任何类型的可用发生器不仅(高斯),它是少将军与规定不允许生成多元随机变量联合统计数据。
2。双重基本方程及其数值解gydF4y2Ba目前部分正式学习问题和演示了一个fixed-point-based数值算法解决双重基本方程。
2.1。双重基本方程和神经系统gydF4y2Ba新方法的关键在于学习逆函数<年代vg height="16.775" id="M42" style="vertical-align:-2.34499pt;width:39.137501px;" version="1.1" viewbox="0 0 39.137501 16.775" width="39.137501" xmlns="http://www.w3.org/2000/svg">
−
1
(
⋅
)
而不是函数<年代vg height="13.6125" id="M43" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
。将在接下来的部分澄清,这个选择简化了学习问题而增加轻微的计算负担学习神经系统的使用生成模型。
gydF4y2Ba我们表示<年代vg height="24.3375" id="M44" style="vertical-align:-2.34499pt;width:118.9125px;" version="1.1" viewbox="0 0 118.9125 24.3375" width="118.9125" xmlns="http://www.w3.org/2000/svg">
=
(
)
d
e
f
=
−
1
(
)
实际神经传递函数的逆函数和参考新的神经系统,拥有<年代vg height="13.6125" id="M45" style="vertical-align:-2.34499pt;width:22.6875px;" version="1.1" viewbox="0 0 22.6875 13.6125" width="22.6875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
传递函数,如“双神经系统”(如图<一个href="//www.newsama.com/journals/cin/2008/426080/fig1/" target="_blank">1一个>)。这里的目的是学习一个弯曲的双神经系统<年代vg height="16.6" id="M46" style="vertical-align:-4.74141pt;width:28.700001px;" version="1.1" viewbox="0 0 28.700001 16.6" width="28.700001" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
成<年代vg height="14.7" id="M47" style="vertical-align:-3.21404pt;width:29.2875px;" version="1.1" viewbox="0 0 29.2875 14.7" width="29.2875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
约束条件下<年代vg height="15.475" id="M48" style="vertical-align:-2.34499pt;width:58.150002px;" version="1.1" viewbox="0 0 58.150002 15.475" width="58.150002" xmlns="http://www.w3.org/2000/svg">
(
)
>
0
,尽管<年代vg height="14.3875" id="M49" style="vertical-align:-2.83405pt;width:41.737499px;" version="1.1" viewbox="0 0 41.737499 14.3875" width="41.737499" xmlns="http://www.w3.org/2000/svg">
∈
。我们表示对生成的随机变量的区间<年代vg height="20.174999" id="M50" style="vertical-align:-6.43292pt;width:62.5px;" version="1.1" viewbox="0 0 62.5 20.174999" width="62.5" xmlns="http://www.w3.org/2000/svg">
=
(
]
。这个假设在非线性双重神经传递函数,基本方程(<一个href="#Eq1">1一个>)可以写成<年代p一个ncl一个年代年代="equation" id="Eq3">
这将是以后称为“双重基本方程。“值得注意的是,边界条件<年代vg height="18.7125" id="M52" style="vertical-align:-6.43292pt;width:53.174999px;" version="1.1" viewbox="0 0 53.174999 18.7125" width="53.174999" xmlns="http://www.w3.org/2000/svg">
(
)
=
0
是完全任意的。尽管没有理论原因设置边界条件在任何特定的方式,上面的选择是出于观察,它简化了定点适应算法对之前的版本提出了(<一个href="#B3">10一个>]。
gydF4y2Ba一般来说,封闭的解(<一个href="#Eq3">3一个>)可能没有意识到,因此我们应该采取迭代学习算法来寻找一个解决方案。正式,这意味着设计一个算法,生成一个连续的函数<年代vg height="14.6875" id="M53" style="vertical-align:-3.20526pt;width:32.037498px;" version="1.1" viewbox="0 0 32.037498 14.6875" width="32.037498" xmlns="http://www.w3.org/2000/svg">
(
)
,<年代vg height="10.8875" id="M54" style="vertical-align:-0.33858pt;width:38.1875px;" version="1.1" viewbox="0 0 38.1875 10.8875" width="38.1875" xmlns="http://www.w3.org/2000/svg">
∈
ℕ
,其限制一致的解决方案(<一个href="#Eq3">3一个>)。产生一系列的方法是采用定点算法:<年代p一个ncl一个年代年代="equation" id="Eq4">
figure-of-convergence的学习过程,我们考虑函数的加权的区别<年代vg height="13.6125" id="M56" style="vertical-align:-2.34499pt;width:22.6875px;" version="1.1" viewbox="0 0 22.6875 13.6125" width="22.6875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
在两个连续的迭代,即<年代p一个ncl一个年代年代="equation" id="Eq5">
作为最初的猜测,我们假设<年代vg height="14.75" id="M58" style="vertical-align:-3.25793pt;width:59.275002px;" version="1.1" viewbox="0 0 59.275002 14.75" width="59.275002" xmlns="http://www.w3.org/2000/svg">
0
(
)
=
0
,尽管<年代vg height="14.3875" id="M59" style="vertical-align:-2.83405pt;width:41.737499px;" version="1.1" viewbox="0 0 41.737499 14.3875" width="41.737499" xmlns="http://www.w3.org/2000/svg">
∈
。
gydF4y2Ba在学习一个逆函数<年代vg height="13.6125" id="M60" style="vertical-align:-2.34499pt;width:22.6875px;" version="1.1" viewbox="0 0 22.6875 13.6125" width="22.6875" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
,数值程序计算实际的非线性函数<年代vg height="13.6125" id="M61" style="vertical-align:-2.34499pt;width:23.674999px;" version="1.1" viewbox="0 0 23.674999 13.6125" width="23.674999" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
通过数值反演。在下一节将会澄清,框架内提出,这样的操作涉及很少的计算工作。
2.2。学习过程的数值实现gydF4y2Ba从实现角度看,该算法(<一个href="#Eq4">4一个>)需要离散为了获得一个版本适用于在计算机上实现。
gydF4y2Ba我们选择代表函数<年代vg height="14.6875" id="M62" style="vertical-align:-3.20526pt;width:32.037498px;" version="1.1" viewbox="0 0 32.037498 14.6875" width="32.037498" xmlns="http://www.w3.org/2000/svg">
(
)
通过一个数值向量:在实践中,我们假设的间隔<年代vg height="20.174999" id="M63" style="vertical-align:-6.43292pt;width:59.900002px;" version="1.1" viewbox="0 0 59.900002 20.174999" width="59.900002" xmlns="http://www.w3.org/2000/svg">
=
(
]
感兴趣的划分<年代vg height="12.3" id="M64" style="vertical-align:-1.29163pt;width:40.625px;" version="1.1" viewbox="0 0 40.625 12.3" width="40.625" xmlns="http://www.w3.org/2000/svg">
≥
1
离散的垃圾箱。这就产生了vector类型表示<年代vg height="16.975" id="M65" style="vertical-align:-2.5707pt;width:61.900002px;" version="1.1" viewbox="0 0 61.900002 16.975" width="61.900002" xmlns="http://www.w3.org/2000/svg">
∈
ℝ
+
1
支持的输出序列的概率密度函数,在那里<年代vg height="10.5375" id="M66" style="vertical-align:-2.5707pt;width:8.25px;" version="1.1" viewbox="0 0 8.25 10.5375" width="8.25" xmlns="http://www.w3.org/2000/svg">
包含<年代vg height="11.325" id="M67" style="vertical-align:-0.51414pt;width:38.887501px;" version="1.1" viewbox="0 0 38.887501 11.325" width="38.887501" xmlns="http://www.w3.org/2000/svg">
+
1
定期间隔的值在<年代vg height="14.3875" id="M68" style="vertical-align:-2.83405pt;width:14.6px;" version="1.1" viewbox="0 0 14.6 14.3875" width="14.6" xmlns="http://www.w3.org/2000/svg">
与spacing-width表示<年代vg height="16.5625" id="M69" style="vertical-align:-4.74141pt;width:17.4625px;" version="1.1" viewbox="0 0 17.4625 16.5625" width="17.4625" xmlns="http://www.w3.org/2000/svg">
Δ
。然后<年代vg height="14.6875" id="M70" style="vertical-align:-3.20526pt;width:32.037498px;" version="1.1" viewbox="0 0 32.037498 14.6875" width="32.037498" xmlns="http://www.w3.org/2000/svg">
(
)
可能是由一个数值向量<年代vg height="17.762501" id="M71" style="vertical-align:-3.20526pt;width:67.962502px;" version="1.1" viewbox="0 0 67.962502 17.762501" width="67.962502" xmlns="http://www.w3.org/2000/svg">
∈
ℝ
+
1
现在的神经输入输出转移由离散的关系<年代vg height="16.987499" id="M72" style="vertical-align:-2.58324pt;width:138.14999px;" version="1.1" viewbox="0 0 138.14999 16.987499" width="138.14999" xmlns="http://www.w3.org/2000/svg">
(
,
)
∈
ℝ
+
1
×
ℝ
+
1
,即一个数值<我>查表我>。一个向量的条目<年代vg height="11.5" id="M73" style="vertical-align:-3.20526pt;width:14px;" version="1.1" viewbox="0 0 14 11.5" width="14" xmlns="http://www.w3.org/2000/svg">
可以用一个额外的页脚,也就是说,<年代vg height="12.4625" id="M74" style="vertical-align:-4.37273pt;width:22.5375px;" version="1.1" viewbox="0 0 22.5375 12.4625" width="22.5375" xmlns="http://www.w3.org/2000/svg">
,
,<年代vg height="13.575" id="M75" style="vertical-align:-2.26974pt;width:109.6875px;" version="1.1" viewbox="0 0 109.6875 13.575" width="109.6875" xmlns="http://www.w3.org/2000/svg">
∈
{
0
,
1
,
…
,
}
。的时间间隔<年代vg height="16.5625" id="M76" style="vertical-align:-4.74141pt;width:17.4625px;" version="1.1" viewbox="0 0 17.4625 16.5625" width="17.4625" xmlns="http://www.w3.org/2000/svg">
Δ
与整数<年代vg height="10.325" id="M77" style="vertical-align:-0.0pt;width:14.8375px;" version="1.1" viewbox="0 0 14.8375 10.325" width="14.8375" xmlns="http://www.w3.org/2000/svg">
并可能被定义为<年代vg height="29.424999" id="M78" style="vertical-align:-6.43292pt;width:102.725px;" version="1.1" viewbox="0 0 102.725 29.424999" width="102.725" xmlns="http://www.w3.org/2000/svg">
Δ
d
e
f
=
(
−
)
/
。
gydF4y2Ba为了将学习规则(<一个href="#Eq4">4一个>)到一个版本适用于数值表示,我们应该考虑数值积分微分方程的固有局限性。以下笔记是值得考虑的。(一)<我>选择输出支持我>:在建随机数生成方法的最终目的是生成随机抽样与期望的概率分布<我>感兴趣的范围内我>与价值观在一个时间间隔,即被认为是适用于随机样本生成启动的目的。因此,输出范围<年代vg height="20.174999" id="M79" style="vertical-align:-6.43292pt;width:59.900002px;" version="1.1" viewbox="0 0 59.900002 20.174999" width="59.900002" xmlns="http://www.w3.org/2000/svg">
=
(
]
是根据需要自由选择要生成的随机样本。然后,上述向量<年代vg height="10.5375" id="M80" style="vertical-align:-2.5707pt;width:8.25px;" version="1.1" viewbox="0 0 8.25 10.5375" width="8.25" xmlns="http://www.w3.org/2000/svg">
有项<年代vg height="11.025" id="M81" style="vertical-align:-3.2316pt;width:14.425px;" version="1.1" viewbox="0 0 14.425 11.025" width="14.425" xmlns="http://www.w3.org/2000/svg">
计算为<年代vg height="18.674999" id="M82" style="vertical-align:-6.43292pt;width:96.4375px;" version="1.1" viewbox="0 0 96.4375 18.674999" width="96.4375" xmlns="http://www.w3.org/2000/svg">
=
+
⋅
Δ
,<年代vg height="13.575" id="M83" style="vertical-align:-2.26974pt;width:109.6875px;" version="1.1" viewbox="0 0 109.6875 13.575" width="109.6875" xmlns="http://www.w3.org/2000/svg">
∈
{
0
,
1
,
…
,
}
。(b)<我>输入支持选择我>:为了防止分母的数量<年代vg height="21.775" id="M84" style="vertical-align:-4.58821pt;width:45px;" version="1.1" viewbox="0 0 45 21.775" width="45" xmlns="http://www.w3.org/2000/svg">
′
+
1
(
)
在(<一个href="#Eq4">4一个>)变得太接近于零,明智的选择是精心选择的支持<年代vg height="11.1" id="M85" style="vertical-align:-0.1881pt;width:14.05px;" version="1.1" viewbox="0 0 14.05 11.1" width="14.05" xmlns="http://www.w3.org/2000/svg">
。在本文中,我们考虑输入概率密度函数(对称)高斯或制服,我们集<年代vg height="14.8625" id="M86" style="vertical-align:-3.21404pt;width:90.962502px;" version="1.1" viewbox="0 0 90.962502 14.8625" width="90.962502" xmlns="http://www.w3.org/2000/svg">
=
(
−
]
,<年代vg height="14.7" id="M87" style="vertical-align:-3.21404pt;width:45.537498px;" version="1.1" viewbox="0 0 45.537498 14.7" width="45.537498" xmlns="http://www.w3.org/2000/svg">
>
0
。不变的价值<年代vg height="14.3375" id="M88" style="vertical-align:-3.21404pt;width:18.325001px;" version="1.1" viewbox="0 0 18.325001 14.3375" width="18.325001" xmlns="http://www.w3.org/2000/svg">
这样选择<年代vg height="14.7" id="M89" style="vertical-align:-3.21404pt;width:74.099998px;" version="1.1" viewbox="0 0 74.099998 14.7" width="74.099998" xmlns="http://www.w3.org/2000/svg">
(
)
≫
0
。值得回顾的是,输入分布的支持可能是任意选择的,因为它不影响输出分布的支持。(c)<我>迭代范围扩展我>:每个学习步骤后,执行一个仿射规范化操作,线性尺度的条目公认的解决方案<年代vg height="11.5" id="M90" style="vertical-align:-3.20526pt;width:14px;" version="1.1" viewbox="0 0 14 11.5" width="14" xmlns="http://www.w3.org/2000/svg">
这<年代vg height="15.775" id="M91" style="vertical-align:-4.37273pt;width:70.375px;" version="1.1" viewbox="0 0 70.375 15.775" width="70.375" xmlns="http://www.w3.org/2000/svg">
,
0
=
−
和<年代vg height="15.775" id="M92" style="vertical-align:-4.37273pt;width:64.5px;" version="1.1" viewbox="0 0 64.5 15.775" width="64.5" xmlns="http://www.w3.org/2000/svg">
,
=
。
gydF4y2Ba为了描述数值算法,下面的操作符被定义为一个通用的查表<年代vg height="16.975" id="M93" style="vertical-align:-2.5707pt;width:139.02499px;" version="1.1" viewbox="0 0 139.02499 16.975" width="139.02499" xmlns="http://www.w3.org/2000/svg">
(
,
)
∈
ℝ
+
1
×
ℝ
+
1
:<年代p一个ncl一个年代年代="equation" id="Eqx">
其中下标<年代vg height="10.7375" id="M95" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
表示<年代vg height="10.7375" id="M96" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
输入的向量<年代vg height="13.45" id="M97" style="vertical-align:-2.21957pt;width:72.1875px;" version="1.1" viewbox="0 0 72.1875 13.45" width="72.1875" xmlns="http://www.w3.org/2000/svg">
c
u
米
年代
u
米
(
)
和<年代vg height="13.625" id="M98" style="vertical-align:-2.26974pt;width:100.1125px;" version="1.1" viewbox="0 0 100.1125 13.625" width="100.1125" xmlns="http://www.w3.org/2000/svg">
一个
ff
年代
c
一个
l
e
{
;
,
}
。的行为“cumsum”操作符如图<一个href="//www.newsama.com/journals/cin/2008/426080/fig2/" target="_blank">2一个>,它还提供了一个可视化表示的查找表。在实践中,认为数字版本的学习规则(<一个href="#Eq4">4一个>)写道<年代p一个ncl一个年代年代="equation" id="Eq6">
在象征<年代vg height="8.4750004" id="M100" style="vertical-align:-0.16302pt;width:18.8125px;" version="1.1" viewbox="0 0 18.8125 8.4750004" width="18.8125" xmlns="http://www.w3.org/2000/svg">
∶
=
表示向量赋值和值<年代vg height="13.425" id="M101" style="vertical-align:-4.74141pt;width:14.8625px;" version="1.1" viewbox="0 0 14.8625 13.425" width="14.8625" xmlns="http://www.w3.org/2000/svg">
表示的向量<年代vg height="11.325" id="M102" style="vertical-align:-0.51414pt;width:38.887501px;" version="1.1" viewbox="0 0 38.887501 11.325" width="38.887501" xmlns="http://www.w3.org/2000/svg">
+
1
条目包含的值<年代vg height="16.6" id="M103" style="vertical-align:-4.74141pt;width:28.700001px;" version="1.1" viewbox="0 0 28.700001 16.6" width="28.700001" xmlns="http://www.w3.org/2000/svg">
(
⋅
)
对应的值<年代vg height="10.5375" id="M104" style="vertical-align:-2.5707pt;width:8.25px;" version="1.1" viewbox="0 0 8.25 10.5375" width="8.25" xmlns="http://www.w3.org/2000/svg">
可以表示为,其条目<年代vg height="12.925" id="M105" style="vertical-align:-4.74141pt;width:19.75px;" version="1.1" viewbox="0 0 19.75 12.925" width="19.75" xmlns="http://www.w3.org/2000/svg">
,<年代vg height="13.575" id="M106" style="vertical-align:-2.26974pt;width:109.6875px;" version="1.1" viewbox="0 0 109.6875 13.575" width="109.6875" xmlns="http://www.w3.org/2000/svg">
∈
{
0
,
1
,
…
,
}
。
look-up-tables条目而言,学习放松指数<年代vg height="14.65" id="M107" style="vertical-align:-3.20526pt;width:25.1625px;" version="1.1" viewbox="0 0 25.1625 14.65" width="25.1625" xmlns="http://www.w3.org/2000/svg">
Δ
的定义(<一个href="#Eq5">5一个>)可以近似<年代p一个ncl一个年代年代="equation" id="Eq7">