QoS(服务质量)(我们的方法可以应用于各种各样的服务;在本文中,我们专注于Web服务)性能集中相关位置由于网络距离和互联网用户和服务之间的联系。因此,考虑到服务和用户的位置信息是必要的。然而,位置信息已经被大多数以前的工作被忽视了。在本文中,我们把两个服务”,用户的位置信息。具体来说,我们提出一个位置感知服务质量预测的方法,称为LANFM,利用神经网络技术和分解机改善用户预期的经验。首先,信息(例如,id和位置)的服务和用户表示为嵌入向量利用神经网络技术。然后,各种嵌入向量的内积,特征向量的加权和,是用来预测QoS的值。应该注意的是,内积操作可获取服务和用户之间的交互,这有助于预测QoS值没有被调用的服务的用户。一组广泛的实验进行了一个真实的数据集上验证LANFM模型的有效性。
Web服务是面向服务的体系结构技术,通过标准网络协议提供服务以支持不同网络上的机器的交互操作(
在现实中,只有一个Web服务被调用的一部分用户。结果,调用Web服务和用户之间的矩阵是稀疏的,因为大多数用户服务矩阵的条目都是null。评估Web服务是一个很好的方式获得准确的QoS的服务用户。然而,有很多的挑战在调用Web服务从客户端用户的角度评价的目的。首先,它是耗时和不切实际的用户调用每一个Web服务进行评估的目的,由于在互联网上大量的Web服务。其次,大多数Web服务供应商是商业公司。这些公司允许用户获取QoS信息通过调用Web服务,同时为用户可以非常昂贵。第三,是不够专业的没有经验的用户对Web服务进行评价。最后,定期进行服务调用给用户带来沉重的工作量不断观察服务的QoS性能。因此,如何准确预测QoS值正成为一个紧迫的问题,增强用户感受到的体验。
为了减轻这些关键的挑战,很多工作(
克服上述现有QoS预测方法的缺点,我们宁愿利用神经网络和分解机技术。具体来说,分解机器的时间复杂度是线性的。另外,分解机只依赖于一个线性参数的数量(
基于QoS的预测问题的特点和嵌入和分解机的意义,在本文中,我们提出一个
特别是,本文的重大贡献可以总结为三个方面:
两个服务”,用户的位置信息是考虑。嵌入式的服务和用户的位置信息可以用于获取服务和用户之间的交互
基于额外的位置信息,可以增强用户和服务之间的交互。也就是说,该方法是一种增强神经因子分解为QoS预言机模型
一个真实的数据集用于验证LANFM模型的有效性。实证研究表明,考虑用户和服务的位置信息确实有助于提高QoS预测的准确性。影响矩阵的密度,嵌入向量的维数,分别和批处理大小进行评估
论文的其余部分安排如下。部分
在本节中,我们提出的一些调查与研究问题相关的QoS的预测。
目前,协同过滤技术是广泛应用于QoS的预测。这些基于协同过滤的方法主要分为三类:基于内存的,基于模型和混合。我们将分别介绍它们在以下段落。
用户和Web服务的位置信息是集中有关Web服务的QoS性能因为网络距离和互联网连接。考虑位置信息将做很多有利于提高QoS预测精度。
一些研究已经考虑到最近的位置信息。陈等人。
所有上面提到的研究是有用的预测QoS价值在一定程度上为用户。但最上面的方法受到的高维度,时间复杂度高,费用高。提出LANFM模型,我们采用嵌入特征提取技术代表服务的隐式向量和用户的位置信息。通过应用嵌入技术,我们可以解决高维度的缺点。此外,嵌入向量可以利用我潜在的服务和用户之间的相关性,即使用户没有调用服务。此外,该LANFM模型可以在线性时间计算;因此它可以解决时间复杂度高的问题。
在本部分中,我们定义要解决的问题
我们的目标是实现准确充分利用QoS预测用户的QoS调用历史记录,服务的位置信息,用户的位置信息。问题的详细描述如下。
假设
一个例子是显示在图
QoS预测的一个例子。
用户感受到的QoS(如吞吐量、可靠性和响应时间)将与网络状态、地理位置和服务运行时环境。网络性能与网络带宽、网络延迟和网络距离密集。在几个网络性能影响因素中,位置信息的关键因素之一。位置信息可以影响用户的行为(
一个玩具位置信息的影响的例子。
假设Alice和杰克是两个不同的服务用户。他们躺在两个远程网络。Web服务器(例如,S1、S2和S3)部署在不同的网络和提供类似的服务。当爱丽丝请求服务,服务器S1将回答爱丽丝和提供服务的要求,因为网络距离爱丽丝和S1更接近于S2和S3。然而,如果S1是无效的或具有较高的延迟,它不会回答爱丽丝。与此同时,爱丽丝是急于要求一个特定的服务。因此,爱丽丝想发送一个请求到S2和S3。她打算发送一个请求到S2,因为网络距离爱丽丝和S2更接近于S3。但是爱丽丝从未从S2请求服务;她不确定是否可以使用S2。 Thus, it is essential to predict the QoS on server S2 such that it can provide services to Alice in the condition that S1 is out-of-service and avoids wasting time. Based on the idea of collaborative filtering, if Lucy or other neighbors have requested a service on server S2 before, she/they can do a great favor for predicting the QoS on server S2. By considering users’ and services’ location information and predicting the QoS of services, we can select appropriate services for users and improve the user-perceived experience.
本节介绍了框架的LANFM QoS值预测模型图
首先收集用户和服务的信息是存储在本地数据库中。一系列的数据处理后,用户的位置信息,服务的位置信息、用户服务调用矩阵(例如,用户感知的历史QoS信息服务),和其他可以获得额外的信息
用户信息(如用户id、用户ASN(自治系统编号)id、国家和用户id)和服务信息(例如,服务id、服务ASN id, id)和服务国家表示为一个炎热的编码向量(它是一种编码方式;n维的向量,只有一个元素为1,其余的都是0。细节将在部分
在一个炎热的编码向量表示为嵌入向量利用神经网络技术。然后,用户之间的内积“嵌入向量和服务”嵌入向量是用于获取用户和服务之间的交互
成对可以预测用户服务的QoS值求和嵌入向量的内积和特征向量的加权和,即嵌入基于位置感知分解机模型
我们的LANFM模型的框架。
注意,一个(自治系统)是一个小单位,有权自主决定使用哪个路由协议在系统中。是一个独立可控的网络单元(例如,一所大学,一个企业或公司)。每一个单独的id。它被称为ASN。ASN很重要,因为ASN惟一地标识每个网络在互联网上。
图
LANFM模型的一个例子。
在本节中,我们给我们的位置感知的细节分解机方法预测QoS的价值观。LANFM模型主要由三部分组成:位置信息处理,基于嵌入的分解机模型,模型的学习。这些组件的细节下面所示。
处理Web服务和用户的位置信息提出了在这一节中,这是我们的位置感知的分解机模型的基础。
Web服务和用户的原始位置信息在我们的数据集提出了表
原始位置信息的Web服务。
| Web服务ID | WSDL的地址 | 供应商的名字 | 国家的名字 |
|---|---|---|---|
| 1 |
|
clearsale.com.br | 美国 |
|
|
|||
| 2 |
|
uni-sofia.bg | 保加利亚 |
|
|
|||
| 3 |
|
etfo.ca | 加拿大 |
|
|
|||
| 4 |
|
webxml.com.cn | 中国 |
|
|
|||
| 5 |
|
emris.cz | 捷克共和国 |
原始用户的位置信息。
| 用户ID | 用户的IP地址 | 国家 | 经度 | 纬度 |
|---|---|---|---|---|
| 1 | 12.108.127.138 | 美国 | 40.44 | -79.96 |
|
|
||||
| 2 | 122.1.115.91 | 日本 | 36 | 138年 |
|
|
||||
| 3 | 128.233.252.11 | 加拿大 | 52.13 | -106.67 |
|
|
||||
| 4 | 129.242.19.196 | 挪威 | 69.67 | 18.97 |
|
|
||||
| 5 | 202.38.99.68 | 中国 | 39.93 | 116.39 |
处理Web服务的位置信息。
| Web服务ID | 国家的名字 | ASN |
|---|---|---|
| 1 | 美国 | 33070年 |
|
|
||
| 2 | 保加利亚 | 5421年 |
|
|
||
| 3 | 加拿大 | 36031年 |
|
|
||
| 4 | 中国 | 23650年 |
|
|
||
| 5 | 捷克共和国 | 43541年 |
处理用户的位置信息。
| 用户ID | 国家的名字 | ASN |
|---|---|---|
| 1 | 美国 | 7018年 |
|
|
||
| 2 | 日本 | 4713年 |
|
|
||
| 3 | 加拿大 | 22950年 |
|
|
||
| 4 | 挪威 | 224年 |
|
|
||
| 5 | 中国 | 4538年 |
注意,我们使用ASN自近而不是IP地址或WSDL地址的IP地址(例如,4.67.68.0和4.67.64.0)不一定属于相同或国家(例如,加拿大和日本)。这表明采用IP地址代表Web服务和用户的位置信息可能没有足够认识到邻居用户或邻居Web服务。此外,在互联网上用户之间的距离通常是测量利用互联网拓扑平坦的(
我们获得的用户id,用户的国家名称,用户的ASN,服务id、服务的国家名称,并通过位置信息处理服务的ASN。然后,我们把用户的国家名称和ASN用户的id和ASN id,分别。服务的国家名称和ASN也经历同样的转变。此外,我们利用一个炎热的编码来表示用户id、服务id、用户id,用户的ASN id, id服务的国家,服务的ASN id(即。,ID层图
在一个炎热的七大洲的编码表示。
| 的名字 | 在一个炎热的编码 |
|---|---|
| 亚洲 | 1000000 |
|
|
|
| 非洲 | 0100000 |
|
|
|
| 北美 | 0010000 |
|
|
|
| 南美 | 0001000 |
|
|
|
| 南极洲 | 0000100 |
|
|
|
| 欧洲 | 0000010 |
|
|
|
| 大洋洲 | 0000001 |
嵌入向量的过程。
一个炎热的映射嵌入编码是通过一个完全连接层。嵌入是一个非常受欢迎的近年来神经网络技术。它试图从原始输入数据的交互学习功能。从高阶资源嵌入项目数据空间到低阶目标空间(
映射的细节过程如下:首先,一个炎热的用户信息和服务信息的编码表示被视为的输入特性(即完全连接层。,一个炎热的编码层图
让
交叉特性的公式如下:
各种嵌入向量之间的交互可以新配方如下:
LANFM模型估计的性能,我们进行损失函数来评估之间的误差估计价值和实际价值。数学上,损失LANFM模型表示为的函数
随机梯度下降法(SGD) [
下面的公式是用于更新模型参数:
我们的位置感知的主要计算分解机模型的评估损失函数
在本节中,我们进行了一系列实证研究公共数据集。此外,LANFM模型将与几个基准进行比较的方法来验证我们LANFM模型的有效性,分析实验结果。
下面的详细统计WSDream数据集描述了部分
我们实现一个真实的实验数据集的集合:WSDream (https://wsdream.github.io/dataset/wsdream_dataset1.html)。用户和服务的位置分布如图
统计数据的Web服务QoS的数据集。
| 统计数据 | 值 |
|---|---|
| 服务的用户数量 | 339年 |
|
|
|
| Web服务的数量 | 5825年 |
|
|
|
| Web服务调用的数量 | 1974675年 |
|
|
|
| 范围的响应时间 | 0-20s |
|
|
|
| 范围的吞吐量 | 0 - 1000 kbps |
|
|
|
| 用户数量的屁股 | 137年 |
|
|
|
| 用户数量的国家 | 31日 |
|
|
|
| Web服务的屁股 | 1021年 |
|
|
|
| Web服务的国家 | 74年 |
位置分布:(a)服务用户的位置分布,与339服务用户分布在31个国家;(b) Web服务的位置分布,分布在74个国家拥有5825 Web服务。之间有1974675调用记录用户(a)和(b)的服务。
服务用户的位置分布
Web服务的位置分布
在本文中,我们试图为用户预测上述两个QoS属性。LANFM模型适用于预测任何QoS属性,通过适当的修改用户服务的QoS属性调用矩阵。
我们使用两个评价指标,平均绝对误差(MAE)和归一化平均绝对误差(NMAE)来衡量我们建议的方法的性能。这两个指标衡量预测值和真实值之间的距离(
评估我们的LANFM模型的性能,以下介绍了基线的方法进行比较。基线的方法从基于内存的协同过滤方法和基于模型的协同过滤方法混合协同过滤的方法:
UIPCC [
及(概率矩阵分解)
NMF(非负矩阵分解)
带头人(neighborhood-integrated矩阵分解)
EFMPred(基于嵌入的分解机)
RegionKNN(地区K最近的邻居)[
LACF(位置感知的协同过滤)
LBR(定位正规化)[
羟甲基糠醛(层次矩阵分解)
在现实中,只有部分用户调用的服务。因此,用户和服务之间的调用矩阵是相当稀少的。我们将数据集分为训练集和测试集的随机删除一个元素的比例从用户和服务之间的调用矩阵。例如,如果我们去除90%调用矩阵的元素,这些元素被视为测试组90%;其余10%的元素作为训练集。
之间的性能比较结果LANFM模型和其他基线方法如表所示
服务质量,预测精度的比较。
| QoS属性 | 方法 | 矩阵密度= 10% | 矩阵密度= 20% | 矩阵密度= 80% | 矩阵密度= 90% | ||||
|---|---|---|---|---|---|---|---|---|---|
| 美 | NMAE | 美 | NMAE | 美 | NMAE | 美 | NMAE | ||
| 响应时间(0-20s) | UIPCC | 0.5842 | 0.6433 | 0.4514 | 0.4970 | 0.3475 | 0.3822 | 0.3443 | 0.3785 |
| LACF | 0.5612 | 0.6181 | 0.4778 | 0.5262 | 0.3692 | 0.4062 | 0.3637 | 0.3995 | |
| RegionKNN | 0.5491 | 0.6048 | 0.5155 | 0.5677 | 0.4950 | 0.5446 | 0.4860 | 0.5338 | |
| 及 | 0.4865 | 0.5361 | 0.4305 | 0.4743 | 0.3751 | 0.4123 | 0.3733 | 0.4098 | |
| NMF | 0.4774 | 0.5261 | 0.4269 | 0.4703 | 0.3723 | 0.4093 | 0.3705 | 0.4068 | |
| 带头人, | 0.4792 | 0.5281 | 0.4202 | 0.4630 | 0.3665 | 0.4029 | 0.3677 | 0.4037 | |
| LBR | 0.4806 | 0.5293 | 0.4301 | 0.4737 | 0.3761 | 0.4138 | 0.3736 | 0.4103 | |
| 羟甲基糠醛 | 0.4815 | 0.5302 | 0.4298 | 0.4732 | 0.3734 | 0.4110 | 0.3698 | 0.4070 | |
| EFMPred | 0.3878 | 0.4083 | 0.3332 | 0.3606 | 0.2641 | 0.2910 | 0.2599 | 0.2825 | |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
| 吞吐量(0 - 1000 kbps) | UIPCC | 22.3274 | 0.4700 | 18.8646 | 0.3966 | 13.5460 | 0.2845 | 13.0623 | 0.2776 |
| LACF | 19.4303 | 0.4087 | 16.4495 | 0.3459 | 12.4200 | 0.2609 | 12.1073 | 0.2545 | |
| RegionKNN | 24.8487 | 0.5226 | 24.0169 | 0.5050 | 24.0414 | 0.5050 | 23.9013 | 0.5023 | |
| 及 | 15.9794 | 0.3362 | 13.9052 | 0.2924 | 12.1408 | 0.2551 | 11.9442 | 0.2520 | |
| NMF | 15.5678 | 0.3275 | 13.5386 | 0.2847 | 11.9260 | 0.2506 | 11.7964 | 0.2489 | |
| 带头人, | 15.1393 | 0.3185 | 13.1799 | 0.2772 | 11.8641 | 0.2493 | 11.7977 | 0.2489 | |
| LBR | 15.4431 | 0.3248 | 13.6455 | 0.2869 | 12.1012 | 0.2542 | 11.9560 | 0.2513 | |
| 羟甲基糠醛 | 15.7076 | 0.3304 | 13.5961 | 0.2859 | 11.6637 | 0.2450 | 11.5562 | 0.2429 | |
| EFMPred | 13.2966 | 0.2811 | 11.4295 | 0.2417 | 8.6713 | 0.1829 | 8.3839 | 0.1773 | |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
矩阵密度是一个重要参数,影响QoS预测的准确性。这意味着有多少历史调用记录用户和服务之间我们可以利用来帮助预测QoS的价值观。调用的密度矩阵变化从10%到90%来研究矩阵密度的影响。步长设置为10%。在这个实验中,嵌入向量的维数为响应时间是30。对吞吐量、维度值是1400。批处理大小是4096。
数据
密度矩阵的影响。
嵌入向量的维数是另一个参数影响LANFM模型的性能。它决定有多少因素用来描述功能。在这个实验中,嵌入向量的维数为响应时间从5到50个研究维度的影响。此外,步长设置为5。对于吞吐量,维度值是不同的从200年到1800年,步长是200。批处理大小是4096。
数据
嵌入向量维数的影响。
数据
的观测数据
批量大小定义了训练样本的数量将呈现给网络之前体重可以执行更新。批处理大小是由全面考虑到培训时间和收敛速度。当批大小设置更大,每个时代的训练速度更快。但收敛速度慢。研究批量大小的影响,我们改变批量大小从64年到5120年的QoS属性。在这个实验中,调用的密度矩阵设置为10%,50%,90%。嵌入向量的维数为响应时间是30。对于吞吐量,设置为1400。值得注意的是,5120年是我们的GPU的最大内存。
响应时间的预测性能LANFM模型提出了数字
批量大小的影响。
我们可以看到数据
提出了一种位置感知分解机方法利用神经网络的嵌入技术。首先,服务和用户的位置信息是考虑。其次,用户信息和服务信息表示为嵌入向量挖掘潜在用户和服务之间的关系。最后,嵌入向量的内积,特征向量的加权和,利用执行QoS的预测。有三个优势,采用神经网络技术和分解机模型:(1)原始输入特征向量的维数可以减少;(2)大数据稀疏的问题可以得到解决;和(3)LANFM模型是线性的时间复杂度。也就是说,我们的LANFM模型能够解决这三个缺点:高维度、时间复杂度高,高实现费用。因此,我们LANFM模型的可伸缩性好。它适用于大规模数据集。 A series of comprehensive experiments are carried out on the WSDream dataset to verify the effectiveness of our LANFM model. First of all, we evaluate the performance of our approach and other state-of-the-art baseline approaches under different matrix densities, which demonstrates that our LANFM model always achieves the best performance. Then, we study the impact of the dimension of the embedding vector to determine how large it should be, which indicates that, for the two QoS properties, when the matrix is very sparse, a relatively small embedding size is good to enhance the performance; when the matrix is dense, a relatively large dimension can better improve the accuracy of QoS prediction. Finally, we investigate the effect of the batch size, which is a powerful parameter that affects the performance of optimization algorithm. The results show that, for the response time, when the matrix is quite sparse, a relatively small batch size is useful for improving the prediction performance; while the matrix is dense, a relatively large batch size is more conducive to improve the QoS prediction accuracy. For the throughput, when the batch size is relatively small, increasing the batch size will improve the predictive performance. While a certain threshold is exceeded, the improvement is less distinct.
在现实中,响应时间和吞吐量都是动态变化的网络环境,因此,应考虑时间因素。因此,我们将尝试建立一个更强大的模型中,考虑了时间信息,预测未来QoS值为用户在工作。此外,其它QoS属性(例如,可靠性、可用性和失效概率)在以前的工作很少研究。因此,我们想调查其他QoS属性在我们的下一个工作。
QoS数据用于支持本研究的发现可以公开访问的网站https://wsdream.github.io/dataset/wsdream_dataset1.html。
Zibin郑是通讯作者。
作者宣称没有利益冲突。
本文是国家重点支持的研究和发展项目(2017 yfb0202201),中国国家自然科学基金(61702568;U1711267),广东省引进创新和创业团队(2017 zt07x355)和中央大学的基础研究基金批准号17 lgpy117。