文摘
Boolean-valued信息系统(BIS)是一个应用程序的一套软数据映射在一个二进制形式和用于制造应用不限于决策、医疗诊断、博弈论和经济学。国际清算银行可能会丢失有几个原因包括病毒攻击,不适当的条目,和机器的错误。提出了一种概念,整个失去了国际清算银行可以从四个再生骨料通过假设集。这一概念的基础上,提出了一个算法来计算整个BIS通过遗传算法(GA),名叫BISGA比假设更普遍和容易实现的方法。提出了一个解决的例子解释BISGA是如何工作的。此外,BISGA在Python实现和评估在UCI标准数据集和随机数据集检查的效率和准确性。结果表明,失去的BIS恢复明显和准确;然而,国际清算银行的规模增加时效率下降。这种新方法可以帮助从业人员重新计算整个失去了国际清算银行,进而有助于决策的过程和结论。
1。介绍
软集用于目前的不确定和模糊数据清晰和明确的数据。pswlak介绍软集的概念在1994年(1]。1999年Molodtsov然后定义(2]。等软集可用于决定应用博弈理论(3)、医疗诊断(4),和财务问题5]。BIS是一个应用程序的软集。它地图软集的值在表中以二进制形式,帮助找到更合适的选择通过权衡所有对象。满足多个参数的对象被认为是最好的选择。表1显示了BIS表示。
错误的决定可以用一个不完整的清算银行,可以产生在一个组织和个人的损失。国际清算银行有不完整的数据称为一个不完备信息系统(IIS)。有几个原因IIS。,improper data entry, errors in communication, and virus attacks. Researchers have been trying to solve this problem. These research works are categorized into two categories, the preprocessed category containing parity bits [6),支持集,或总集(7)和未加工的范畴。支持集,从模型中提取总集,或奇偶校验位前国际清算银行的数据丢失或损坏。可以恢复丢失的数据通过使用这些设置(8]。未加工类别使用剩余的可用的国际清算银行的数据恢复丢失的数据。技术在未经加工的范畴包括加权平均(9],概率[10),评价结果(11],ADFIS [12],DFPAIS [13]。表2显示了一个不完整的Boolean-valued信息系统,丢失的数据由“ 。”
玫瑰等。6)首先介绍了数据填写软集的概念,通过奇偶校验位。0和1是插入1 s奇数还是偶数的数量数据。然后,他们介绍了聚合的概念集(7]。这四个聚合组行聚合组,列聚合组,左右对角线聚合,和左边/右边对角线聚合,如表所示3- - - - - -5。每一行的值的总和是记录在行聚合组。每一列的值的总和是记录在列总集。左右对角线总集和左边/右边对角线总集计算行和列一样aggegate集。这种聚合的方法更精确的比奇偶校验比特数据填充部分失踪的价值观在国际清算银行。汗等。8]介绍了重新计算整个BIS的概念,从这四个聚集。他们使用异时手动解决问题作为一个概念证明线性方程。他们插入1和0根据通用和空集。通用集是集,每个值是1,和空集是集,每个值为0。他们还假设当它是必要的。当假设失败,他们不得不追溯并重新开始替代假设二进制域。由于这些假设,这种解决方案很难实现,如果仍然是实施,那么它将不会通用每BIS如遗传算法(GA)。此外,许多不同的骨料的BIS可以有相同的集因为BIS的循环模式,如在图1。在图1有四个bis,骨料的设置相同。更有趣的是,所有四个表图1有相同的聚合的例子中手动解决我们的原纸汗等。8),作者只用于计算一个表,不关注对他们的技术的实现和其他可能的表也有计算如果他们有他们的技术实现。这似乎是一个可能的缺点的方法。应该注意的是,一组不同的bis重新计算仍然满足所有聚合,因此可用于决策的目的。这次调查将在重新计算bis应用GA的工作成为可能。然而,进一步的研究将需要重新计算只有原来的BIS组的总量。
遗传算法(14)是一种metaheuristic仿生算法用于搜索和优化问题在许多领域。遗传算法的主要原理是适者生存,试图从可用的人口选择适者个体或染色体。两个强大的运营商的交叉15)和突变(16)应用于选中的染色体进一步筛选最好的等位基因和基因的染色体。健身的交叉和变异染色体检查,和最佳的交叉变异一次又一次接近适当的解决方案在几个迭代,直到找到令人满意的解决方案。
因此,本文重新计算整个BIS的软集命名BISGA聚合使用遗传算法,提出了一种算法。本文主要有以下四个最初的贡献,而主要目的是提出BISGA:(1)识别的约束可以应用于染色体来缩小搜索空间(2)找到合适的遗传算子和自定义二维环境中使用(3)获得一个四维适应度函数(4)分析精度进行比较与原BIS和效率通过一代又一代的平均数量
剩下的纸是进一步分为5部分:文献综述中提供了部分2。该算法在部分讨论3。部分4包含结果与讨论,本文的结论部分5。
2。文献综述
本部分包括三个部分。在第一小节中,我们提供软集的文献综述。在第二小节,我们将讨论不完整的软集和处理不完整的技术软集和,在最后一个小节中,我们提供了一些关于遗传算法的讨论。
2.1。软集
软集合的定义是“让U是一个初始通用集和P是一组参数。一对(F,P)被称为软集(结束U)当且仅当F是一个映射的P到集合的所有子集的集合U。”
例如,我们 是一组手机和 是一些功能代表”的一组最新手机,”“预算”“无线充电”,“5克,”“高分辨率相机,”和“边缘”,分别。
我们假设最新的手机 , , ,和 ,预算的电话 ,无线充电功能的手机 , , ,和 ,5 g手机 , , ,和 ,手机 , , ,和有一个高分辨率的相机, , , , ,和手机的优势。这些数据在表表示1。数据告诉我们预算不是一个手机,但它包含的所有特性使它一个更合适的选择:
Majumdar和Samanta17]使用一套软来诊断疾病。此外,Kharal [5]使用一套软指出财务问题。此外,熟食店和Cagman [3]证明了软集合理论应用博弈论。他们雇佣一些集合操作,确定软游戏的解决方案,让游戏更容易申请。
在任何情况下,如果数据没有完全可用,这将是不容易决定叫做BIS和丢失的信息,如表所示2。
2.2。BIS和缺失的信息
国际清算银行的信息可能会丢失,因为错误,不当条目,病毒攻击,等,称为一个不完整的信息系统。研究人员发现缺失或数据丢失在一个不完整的软集。这些技术分为两大类:预处理类别和未加工的范畴。
第一次尝试在未加工的类别是由邹和肖9),作者提出了加权平均技术。在这个技术,可以做出决定没有找到丢失的数据。香港et al。10)提出了一个概率技术找到完全缺失或数据丢失。这种技术可以找到一系列的值在0和1之间。秦et al。11]给出评价结果。它可以恢复丢失的数据通过使用参数关联。一致的关联考虑参数之间相同的值和不一致的关联考虑参数之间的相对价值。首先,计算所有参数之间的关系,并根据它们恢复丢失的数据。汗等。12)提出,必须找到协会在ADFIS每次迭代后。果断一块数据恢复时,联想到那块的数据必须重新计算。他们继续与最近包括数据重新计算,直到最后的数据恢复。香港et al。13)提出了某些情况下,通过它们表明ADFIS每次都不会工作。他们建议在DFPAIS决定不应独自协会最高。所有的联想都应该参与决策过程。最高的协会仍有更大的影响但并不拥有所有的权威。这些作品在UCI标准数据集进行测试。UCI由4个数据集,即。,zoo datasets, flag datasets, congressional datasets, and heart datasets.
据预处理的技术类别而言,该工作是相关的类别。因此,我们将讨论它的必要的数学细节的一些方程将用于拟议的工作。预处理类别技术只适用当我们有一些压缩或提取数据的丢失数据。汗等。8)给一个概念,整个国际清算银行可以再生。他们用四组总介绍的穆罕默德玫瑰et al。7]。在这四个总量中,两组总1 s的总和的每一行和每一列的总和的行和列的总总集,分别如表所示3。一行总可以找到数学如下: ,“R“表示一行。”u“当前行,”“代表国际清算银行的所有列。
同样,一个列总可以找到如下: ,“C“表示一个列,”是当前列,“u“代表国际清算银行的所有行。
自从对角线也可以以两种方式治疗,因此,另外两个聚合是左右(LR)和左边/右边(RL)对角线。这些LR的总量和RL对角线计算的算术总和值在每个对角如表所示4和5并强调了通过相同的颜色为一个对角。LR和RL对角线计算方程如下: 在哪里和在国际清算银行的行数和列,分别。
LR和RL对角聚合可以在下面两步计算。
案例1。当 ,即。,the LR diagonals starting from the first row and ending with the last column and the RL diagonals starting from the first row and ending with the first column, we obtain
例2。当 ,即。,the LR diagonals starting from the first column and ending with the last row and the RL diagonals staring from the last column and ending with the last row, we obtain
2.3。遗传算法
遗传算法是一种metaheuristic JH荷兰在1975年提出的算法(14],它模仿了达尔文的进化论。它作用于适者生存的想法。一组随机的最初生成个人也称为染色体。评估所有个人的健身,健身功能。人口必须通过所有算法的遗传算子和产生新的个体。搜索终止如果解决方案通过适应度函数的标准。这些遗传算子的选择、交叉和变异算子。
选择运营商用于选择个人人口的繁殖(18]。在轮盘赌选择,一个轮子或饼分给个人根据他们的健身价值。个人有更好的健身价值的收益更重要。
个体之间的交叉算子是用来交换信息(15]。两个或两个以上的个人,和至少一个新个体。单点交叉基因分为两个单独的基因,与另一半的其他家长交流。
变异算子变异新出生的个体分散他们从目前个人16]。在翻转突变,位随机翻转。零成为,一个变成了零,而交换染色体突变基因互换。
Aj和Pd (19和票数et al。20.]介绍了二进制遗传算法有不规则的困难模式和海明悬崖和挣扎在实现精度。提出了一种二维GA的蔡et al。21航空调度问题。2 d基因组作为一个一维数组,而应用交叉算子的研究。最近的工作在GA多元缺失的数据归责包括连续和离散的填补缺失的数据(22),但它不同于该工作还是充满部分缺失的信息而不是整个矩阵与拟议的工作。
3所示。提出工作:BISGA
这部分的工作主要由逐步BISGA伴随着一个循序渐进的解决的例子。BISGA提出的算法伪代码2和可视化的帮助下流程图如图2。
3.1。人口
BISGA,人口由所有可能的bis相同的大小。每个BIS称为染色体或个人。计算染色体的大小一样的表列数=总长度列集和的行数等于总长度的行集。
初始种群是由随机分配表1和0,但行总体满意度的约束。这个约束被认为是第一个贡献BISGA和声明如下:“每一行必须分配的数量等于其总体的价值。”This constraint is applied because the BISGA will not need to calculate and check the fitness of row aggregates at each iteration, and only the other three aggregates will need to be further checked for satisfaction. This constraint not only increases the efficiency of BISGA apparently by 25% but also helps its performance improvement, because the overall number of ones in each chromosome is exactly equal to the required number as in the original BIS and remains fixed throughout the execution. The minimum number of selected chromosomes or parents should be two for the process of crossover. Selecting as more parents as possible chromosomes will increase the chances of finding the fittest chromosomes at this early stage.
3.2。选择
从人口选择父母交叉,轮盘赌选择和锦标赛选择运营商都适合这个问题。他们都有类似的影响。之后,在结果中,我们使用轮盘赌选择。
3.3。适应度函数
染色体遗传算法中适应度函数是用来评估或个人。适应度函数是新派生BISGA和被认为是其主要贡献。最初,适合一个聚合x个人计算通过个人之间的绝对差异总集和实际总集使用方程(1)如下: “州”表示当前染色体的个体,N表示总长度,“行动”表示实际的总套国际清算银行。
每个聚合个人健身然后添加彼此找到整个个人的累计健身使用方程(9)。个人被认为是健康的,如果低于或接近零的区别。零健身意味着输入总量满足了个人。适应度函数的公式如下所示。其他有用的讨论可以发现健身的关系部分中讨论。
3.4。交叉
至于交叉,提出了单点交叉BISGA最初。上半年的交叉执行行从父母1和下半年行父2使孩子/ offspring1。同样,剩下的父母下半年1和父母上半年2产生第二个后代。如果两个以上的父母,他们将在相同的方式交叉根据他们的健康产生更多的后代。应该注意的是,最初的约束应用于行总量保持在这种类型的交叉。
3.5。突变
一点一行操作交换变异算子用于BISGA的突变。BIS值小于几百,一个突变在整个国际清算银行就足够了。而对于更大的国际清算银行,一个百分之二的突变值是必需的。在整个国际清算银行有一个突变时,很显然,交换应该在同一行中执行维护行总体满意度的约束。同样,在两个多基因突变在BIS,行总满意度的约束必须考虑如果突变是随机选择的个体的一个或多个行。更多的讨论相关的突变可以在本文中讨论的相关部门。
3.5.1。伪代码1:适应度函数
要求如下:行总集,列总集,左右对角线总集,左边/右边对角线总集,和个人的染色体:(1)找到个人的聚集集(使用方程(2)(8))(2)找到每个聚合组的健康对个人(使用方程(9))(3)计算个人的健身(使用方程(10))
3.5.2。伪代码2:BISGA
要求如下:骨料的实际BIS,染色体,和健身功能:(1)产生两个或两个以上的染色体的BIS的大小(2)把每一行的随机数量的大小根据这一行聚合和用0填充剩余的细胞的染色体(3)计算每个染色体的适应性(使用伪代码1)(4)如果至少有一个染色体零健身结束,否则进入下一步(5)跨两个或两个以上的适者染色体彼此互相行明智的和其他健康等等(6)突变基因的百分之二行明智使用交换和返回到步骤3
3.6。解决的例子BISGA
在本节中,我们将演示BISGA作为一个概念证明的一个例子。考虑4×4,表3将称为实际国际清算银行,其总设置如下:
3.6.1。步骤1:初始种群
四个染色体随机生成的初始种群,给图3,每个染色体的大小等于行蕴的数量乘以列聚集的数量。
操作。步骤2:初始约束条件
在第一行的随机生成的数量是3等于第一行聚合。类似地,两个,一个,两个数字的插入在第二,第三,第四行,分别。剩余的细胞充满了0。
3.6.3。步骤3:计算健身
考虑到染色体的适应度计算01,行蕴的实际BIS和染色体01是相同的,这个总体的健身是0。列实际BIS的总量 ,而染色体01 。这些列总量的绝对差异 ,和它的总数是4列的健身总染色体01。同样,左右的健身和左边/右边对角线染色体01 2和4,分别。添加每个聚合组的健身(0 + 4 + 2 + 4)成为10的健身染色体01。以类似的方式,其他三个染色体的适应性可以计算为每个染色体图3。
3.6.4。第四步:选择
根据上一步中计算染色体的适应度,选择01号染色体和染色体04的适者在所有进一步的操作。显示选中的染色体01的黑色背景白色背景和其他04,和大胆的边界图1帮助理解在下一步中交叉。
3.6.5。第五步:交叉
01号染色体和染色体04行明智了均匀的前两行01号染色体和染色体04的最后两行生成一个新的后代,如图4。同样,染色体的最后两行01和前两行染色体04结合制作第二个后代从选中的染色体。以类似的方式,染色体02和03号染色体交叉,这是这里没有显示为简单起见目的。
3.6.6。第六步:突变
我们已经插入的0和1的染色体作为初始约束,现在我们只能使用交换变异。假设第一个和最后一个元素的后代在第三行01选择突变,然后第一个1将成为0最后0将成为1,突显出图3。因此,行3的合计价值将不受影响,仍像它的前一个值等于1。同样的,其他所有的后代会突变。
BISGA流程图后,在图2和伪代码2,现在每一个后代的健康检查将在步骤3中。如果没有后代0健身,步骤3到步骤5将被重复,直到零发现健康的后代。突变后在我们的例子中,后代01实际是一样的清算银行,和算法将终止后发现其健身等于零。
4所示。讨论和结果
在本节中,我们提出的一些初步结果后通过BISGA在Python实现它。第二,其次是一些必要的讨论结果与这些结果和BISGA运营商。
4.1。结果
两个主要的结果BISGA已经包含在本文图的形式1和解决的例子。其中,图1结果是最重要的,因为这个例子来自原纸,在汗et al。8重新计算只有一个国际清算银行,而BISGA计算四个不同的表显示BISGA比汗强大的et al。8)的方法。除了这些4双,另一个5thBIS计算这不是如图1。我们提到它在文本信息的读者,读者可以发现这些BIS的总量是原始的BIS的相同。第五BIS是[[1 1 0 1 0,1,1],[1,0,0,1,0,1,0],[0,1,1,1,0,0,1],[0,0,0,0,1,1,1],[1,0,0,1,0,1,0],[0,1,1,1,- 1,0,0),和[1,0,1,0,1,1,1]]。如果BIS1(图1)被认为是100%准确的,因为它是原始的清算银行,然后给出其他BIS在图的准确性5。
BISGA运行十倍时重新计算国际清算银行的基本例子,最初的BIS是计算的四倍,而其他四个等价BIS在剩余的测试计算。原始的频率和等效BIS重新计算BISGA图给出6这也显示了用于这些计算的迭代次数。图7说明了通过随机的一代又一代的发展解决方案。中突出显示错误值表。
已经给出的第二个重要的结果是自解释的一步一步解决的例子阐述了BISGA的概念。
除了这两个重要的结果,我们实现BISGA之后运行它在Python中不同大小的BIS在UCI标准数据集和伪布尔数据集。UCI标准数据集有4个数据集已经使用的数据填写ADFIS软集(12]。首先,1010值取自4数据集。比例的平均精度和效率图8。实验也更通用的虚拟数据上执行该算法的结果。
其他实验进行随机二进制数据。bis的不同大小,即。,5∗5, 5∗6, 6∗6, 6 ∗ 7, 7 ∗ 7, 7 ∗ 8, 8 ∗ 8, 8 ∗ 9, 9 ∗ 9, 9 ∗ 10, and 10 ∗ 10, were randomly created. Twenty random BISs were generated for each abovementioned size. Then, their aggregates were extracted and given as input to BISGA. Every BIS was regenerated twenty times by the algorithm. The solution was then compared with the original BIS. The average accuracy achieved for these BISs is given in Figure9。应该注意的是,不到100%的准确率更大的国际清算银行意味着不同的BIS重新计算同样的清算银行,这相当于原始的总量。一代又一代的平均数量达到图中给出的解决方案10。
4.2。讨论
提出了关于不同类型的查询结果是这里讨论。首先,重新计算原纸(8)也使用环球和空聚合除了假设。所以问题上升,汗等。8)技术在重新计算原始BIS可能更准确。然而,如果我们观察在相同图的例子1,每一个等效BIS环球和空总量相同,因此澄清,如果空和通用聚合物被认为是BISGA,仍然相当于BIS会计算。
其次,随着国际清算银行的规模增加,将会面临两个问题。第一个问题是,它需要更多的迭代和更多的时间来得到解决,第二个问题是等价的国际清算银行数量的增加,很难找出原来的国际清算银行。这两个问题较大的bis是自然的和专业的技术,和运营商需要最小化。
第三,低精度在较大的BIS并不意味着每个BIS计算精度较低,是明显的从图9。如果我们成功地识别原始BIS,精度在这种情况下将降至100%。例如,三个原始BIS在20人重新计算10∗BIS在我们的实验中,但显示的准确性是平均20,其中17是等价的清算银行。因此,平均精度已降至57%。这里值得注意的是,所有这些bis的健康,包括17不准确是零,这就是为什么他们被称为等效由于相同的健身的原因。
正如前面所提到的,我们有检查BISGA在基准数据集,我们假二进制数据用于实验,可能不反映任何特定的软集。然而,BISGA作品相同的二进制数据不管事实是否它是一套软。同样的,2 d二进制数据从其他域可以使用BISGA重新计算。
重要的是讨论的初始约束总体满意度为每个单独的行。它修复总0和1的数量等于任何聚合在整个BIS的总和。如果限制不是把,bis的初始种群生成随机的0和1,不一定等于任何聚合。因此,它显然需要更多的迭代修正1和0的数字加上安排他们在这样一个以满足适应度函数。此外,调查将帮助如果约束应用于行蕴是更好或如果它适用于任何对角线导致快速的解决方案。的迭代BISGA如果这样的约束可以应用将进一步减少最初在不止一个总在未来。
最后,为什么使用突变是BISGA虽然非常有限的二进制域值,还有99.99%两个0和1的机会将会出现在任何合理的人口选择,这里使用的交叉是单点和行明智的。没有突变,一个细胞或基因不会得到其所需的一些其他的组合在相同的行或列。所以变异使其灵活抛在任何细胞需要的地方。
5。结论
在本文中,我们提出了BISGA可以重新计算整个国际清算银行。一个约束是应用于初始种群的选择满足健身的四分之一和维护算法。选择合适的遗传算子,如单点交叉和交换变异。这个问题的适应度函数派生。进行的实验是在UCI标准数据集和随机数据集来确定算法的性能。遗传算法是基于评估的准确性和效率。结果表明,当国际清算银行的规模增加,循环模式的可能性增加,从而影响算法的效率和准确性。可以添加其他聚合以避免未来工作的循环模式。在未来,有一些预期BISGA在数据完整性和数据压缩中的应用。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称他们没有关于这篇文章的出版的利益冲突。
确认
作者扩展他们的感谢院长以来哈立德国王大学科学研究的资金通过大量RGP.2/212/1443这项工作。