通过利用位置信息预测服务质量

抽象的

服务质量(我们的方法可以应用于各种各样的服务;在本文中，我们关注的是Web服务的性能与位置密切相关，这是由于网络距离和用户与服务之间的互联网连接。因此，考虑服务和用户的位置信息是必要的。然而，以往的工作大多忽略了位置信息。在本文中，我们考虑了服务和用户的位置信息。具体地说，我们提出了一种位置感知的QoS预测方法，称为LANFM，利用神经网络技术和因子分解机来改善用户感知体验。首先，利用神经网络技术将服务和用户的信息(如id和位置)表示为嵌入向量。然后利用各种嵌入向量的内积和特征向量的加权和来预测QoS值。需要注意的是，内部产品操作可以捕获服务与用户之间的交互，这有助于预测用户尚未调用的服务的QoS值。在一个真实的数据集上进行了大量的实验，以验证LANFM模型的有效性。

1.介绍

Web服务是面向服务的体系结构技术，它通过标准的Web协议提供服务，以支持网络上不同机器的交互操作[1]．随着Internet上Web服务的指数级增长，出现了许多具有相同或类似功能的Web服务。这些Web服务具有不同的QoS性能。Web服务的非功能属性由QoS广泛描述[2]．一般来说，QoS是Web服务的非功能性性能标准的列表，包括流行度、响应时间、吞吐量、故障概率和可用性。用户感知到的QoS与网络状态、地理位置和业务运行环境密切相关。

实际上，用户只调用了Web服务的一部分。因此，Web服务和用户之间的调用矩阵非常稀疏，因为用户服务矩阵中的大多数条目都是空的。评估Web服务是为服务用户获得准确QoS的一种好方法。然而，从客户端用户的角度来看，调用Web服务进行评估存在很多挑战。首先，由于Internet上有大量的Web服务，用户调用每一个Web服务来进行评估是费时且不切实际的。其次，大多数Web服务提供者都是商业公司。这些公司允许用户通过调用Web服务来获取QoS信息，但对于用户来说，它们的成本可能非常高。第三，缺乏经验的用户对Web服务进行评估不够专业。最后，定期进行服务调用会给用户带来沉重的工作负担，需要用户不断地观察服务的QoS性能。因此，如何准确预测QoS值成为增强用户感知体验的迫切问题。

为了缓解这些严峻的挑战，许多工作[3.-6.]在大多数情况下，只利用了用户id和服务id的信息，而忽略了用户和服务的位置信息。应该注意的是，Web服务的QoS性能与位置密不可分。这是因为用户和服务之间的网络距离和Internet连接在很大程度上影响了用户感知的QoS性能。因此，考虑位置因素有助于改善QoS预测结果。最近，有一些作品[7.-12已经注意到用户位置对QoS值的影响。这些调查主要基于观察来看，当调用相同的Web服务时，不同地方的用户可能通过不同的物理基础设施而度过不同的经验。然而，由于利用基于用户的基于/项目的协同滤波和矩阵分解技术，这些现有的QoS预测方法具有高维度，高时间复杂度和高费用的缺点。以前的工作中使用的特征向量的尺寸相对较高，基本上是时间复杂性的那这需要大量的人工特征工程。服务信息和用户信息的利用需要更创新、更有效的方法。这些方法有助于解决上述缺点，进一步提高QoS预测的准确性。

为了克服现有QoS预测方法的上述缺点，我们更愿意利用神经网络和分解机技术。具体地，分解机的时间复杂性是线性的。此外，分解机仅依赖于线性数量[13]．神经网络中的嵌入技术可以将数据从高阶源空间投影到低阶目标空间，并能保持良好的结构不变性。嵌入技术可以很好地解决高维问题。即使Web服务从未被用户调用，也可以通过学习交叉特性，由分解机器捕获Web服务和用户之间的交互。应用因子分解机可以解决数据稀疏性和时间复杂度高的缺点。

基于我们QoS预测问题的特点和嵌入和分解机的意义，在本文中，我们提出了一个L.的位置,一种纯件QoS预测方法，通过利用Neural网络和F动作化machine（称为LANFM），以改善用户感知体验。本文从初步会议版本延伸[14，主要利用用户id特征和服务id特征进行QoS预测。此外，我们在会议论文中只考虑了矩阵密度和嵌入向量维数等影响参数(矩阵密度设置为10%)。

特别是，本文的重大贡献可以总结为三倍：（1）考虑服务'和用户的位置信息。嵌入式的服务形式'和用户的位置信息可用于捕获服务和用户之间的交互（2）基于附加位置信息，可以增强用户和服务之间的交互。即，所提出的方法是增强的神经分解机模型，用于QoS预测（3)真实世界数据集用于验证我们的LANFM模型的有效性。实证研究表明，考虑用户和服务的位置信息确实有助于提高QoS预测的准确性。评估矩阵密度，嵌入载体的尺寸和批量大小的影响

论文的其余部分安排如下。部分2突出了关于协同过滤和位置感知QoS预测的一些相关工作。部分3.描述了QoS预测问题、动机和LANFM模型的框架。部分4.介绍我们LANFM模型的详细信息，用于预测QoS值。部分5.介绍了一些实证研究并分析了实验结果。部分6.做出了纸张的结论。

在本节中，我们将介绍一些与QoS预测相关的研究问题。

2．1.基于协同过滤的QoS预测

目前，协同滤波技术被广泛应用于QoS预测。这些基于协同过滤的方法主要分为三类：基于内存，基于模型和混合的。我们将在以下段落中单独介绍它们。

基于内存的方法。这种方法通过利用用户和服务之间的历史调用日志来度量用户或服务之间的相似性。它涉及基于用户的方法[15那16]，以项目为基础的方法[17那18，以及它们的杂种[4.那19]．例如，Sun等。[20.]提出了一种度量Web服务之间相似性的新方法。进一步，他们提出通过引入正常恢复协同过滤来预测QoS。Xiong等[21]利用了历史的使用经验，并提出了一种协作的方法。它们的目的是解决不平衡数据的QoS预测问题。Ma et al. [22]挖掘了一些以前从未发现过的QoS数据集上的重要特征。他们提出了一种强大的预测方法来实现这些特征，以帮助预测QoS。

基于模型的方法。这种方法通过利用机器学习技术预测服务用户的QoS。以下提供了这种类型的一些代表性方法。郑等人。[5.]提出了一种邻域综合矩阵分解方法，通过考虑用户和服务之间的历史调用记录来预测用户的QoS。Xu等[23]，提出了一种基于声誉的矩阵分解方法来预测QoS值。Luo等[24]提出与Tikhonov正则化项，并在对QoS预测的非负约束的矩阵因式分解模型。Wu et al. [14]将用户id和服务id嵌入到向量中，利用因子分解机对用户的QoS进行预测。

混合方法。这种方法集成了基于内存和基于模型的方法。混合方法通常统一相似度测量和矩阵分解的力量。例如，陈等人。[25]组装了用户和服务的邻居关系。然后，通过应用邻域正则化矩阵分解方法来预测QoS值。Su等人。[6.首先结合了服务的直接相似性和传递间接相似性。此外，它们提出了一种通过积分非负矩阵分解模型和期望最大化来执行QoS预测的混合算法。lo等。[26]通过从不同方面衡量用户和服务方面的相似性来识别社区。然后，他们提出了一种用于QoS预测的关系正则化矩阵分解结构。

２.２.位置感知服务质量预测

由于网络距离和Internet连接的关系，用户和Web服务的位置信息与Web服务的QoS性能密切相关。考虑位置信息对提高QoS预测精度有很大的帮助。

一些研究最近已经考虑了位置信息。Chen等[27通过设计用于大规模服务的QoS预测的区域模型来使用QoS的特征。lo等。[28]通过考虑本地连接和地理信息来确定邻居。他们提出了一种基于新的基于位置的正则化矩阵分解模型，以预测用户的QoS。他。[29]，利用聚类用户服务组的位置信息，提出基于位置信息的层次矩阵分解方法，实现个性化的QoS预测。Chen等[11通过使用用户的位置信息和服务的位置信息以及QoS值，将用户和服务分成几个组。他们提出了一种创新的协作过滤模型，可以为用户选择最佳QoS性能的服务。刘等。[9.]提出了一种基于内存的服务QoS预测方法，利用用户和服务的位置信息进行预测。位置信息可以帮助客观用户或客观服务选择相似的邻居。Wu et al. [7.使用用户和服务之间的调用记录，并提出了广义上下文敏感矩阵分解方法来预测服务的QoS值。Kuang等人。[8.]利用用户的声誉和用户与服务的位置信息，提出一种个性化的QoS预测方法，解决数据稀疏、冷启动和数据不可靠的问题。

以上研究对预测用户的QoS值具有一定的参考价值。但上述方法大多存在维数高、时间复杂度高、成本高的问题。在提出的LANFM模型中，我们采用嵌入特征提取技术来表示服务和用户位置信息的隐向量。通过应用嵌入技术，可以解决高维的缺点。此外，即使用户还没有调用服务，也可以利用嵌入向量来挖掘服务和用户之间的潜在关联。此外，所提出的LANFM模型可以在线性时间内计算;从而解决了时间复杂度高的问题。

3.动机和框架

在这一部分中，我们定义了在部分中解决的问题3．1．我们介绍了在部分中纳入位置信息的动机3．2．在本节中，我们将介绍所提出的LANFM模型的框架3．3．

3.1。问题描述

我们的目标是充分利用历史QoS的调用记录，以实现用户的QoS的准确预测，服务的位置信息，以及用户对本文位置信息。问题的细节描述如下。

认为和是一套用户和服务分别。是用户和服务。是元素那他们的许多价值观都缺失了。我们的目标是预测矩阵中缺失的值通过开发现有元素之间的关系。

图中显示了一个示例1帮助理解QoS预测的问题。用户（例如，U1，U2，U3，U4）和服务（例如，S1，S2，S3，S4，S5）之间的调用矩阵被展示在图的上部1．调用矩阵中的每个元素都代表QoS属性值（例如，响应时间或吞吐量）。然后，我们调查的问题被转换为如何基于现有元素准确地预测调用矩阵中的缺失元素。可以发现，用户只能调用一部分服务。例如，U1已调用S1，S3和S4。U4在S1，S2和S5上观察到QoS信息。仍然存在少量的公共服务，虽然不是每个用户都调用了所有服务。通过在这些公共服务的帮助下应用协作过滤的想法，我们可以完成调用矩阵。完整的矩阵显示在下部。

3.2。动机

用户感知的QoS（例如吞吐量，可靠性和响应时间）与网络状态，地理位置和服务运行时环境密切相关。网络性能与广泛的网络带宽，网络延迟和网络距离相关。在几个网络性能影响因素中，位置信息是关键因素之一。位置信息可以影响用户的行为[30.]．在一般情况下，如果Web服务部署在用户网络中（例如，局域网络或子网），那么，Web服务器更可能在很短的时间周期内响应用户。也就是说，用户和Web服务器之间的响应时间是短暂的，当用户调用Web服务。相反，如果Web服务被部署在远离用户（例如，跨多个子网），会有Web服务器响应业务用户之前很长一段时间。这种现象是一个事实，即当用户访问本地网站，网页会很快回应他/她一样。当用户访问国外网站，它往往是相对缓慢的回应给他/她。这是因为在互联网上的远程请求和响应常常需要路由并转发多次，这是费时。数字2显示一个玩具示例以说明为什么考虑服务的位置信息，以预测服务'QoS很重要。

假设爱丽丝和杰克是两个不同的服务用户。它们位于两个远程网络中。Web服务器(如S1、S2、S3)部署在不同的网络中，提供相似的服务。当Alice请求服务时，服务器S1会响应Alice的请求并向她提供服务，因为Alice和S1之间的网络距离比S2和S3更近。但如果S1无效或延迟高，则不会及时回答Alice。与此同时，爱丽丝急着要求某种服务。因此，Alice希望向S2和S3发送请求。她打算向S2发送请求，因为Alice和S2之间的网络距离比S3更近。但是Alice从不向S2请求服务;她不确定是否可以使用S2。 Thus, it is essential to predict the QoS on server S2 such that it can provide services to Alice in the condition that S1 is out-of-service and avoids wasting time. Based on the idea of collaborative filtering, if Lucy or other neighbors have requested a service on server S2 before, she/they can do a great favor for predicting the QoS on server S2. By considering users’ and services’ location information and predicting the QoS of services, we can select appropriate services for users and improve the user-perceived experience.

3.3。LANFM模型的框架

本节介绍了LANFM模型的框架，用于预测图中的QoS值3.．详细的程序如下:（一世）首先收集用户和服务的信息，存储在本地数据库中。经过一系列的数据处理，可以获得用户的位置信息、服务的位置信息、用户服务调用矩阵(如用户感知到的服务的历史QoS信息)以及其他附加的必要信息（ii）The user information (e.g., user id, user ASN (autonomous system number) id, and user country id) and the service information (e.g., service id, service ASN id, and service country id) are expressed as one-hot encoding vectors (it is a way of encoding; for an n-dimensional vector, only one element is 1, and the others are 0. The details will be introduced in Section4.）。此外，这些中的一个热编码矢量被级联为每个历史使用记录的输入特征矢量(3)利用神经网络技术将单热点编码向量表示为嵌入向量。然后，利用用户嵌入向量与服务嵌入向量之间的内积来捕获用户与服务之间的交互（iv）通过将嵌入向量的内积与特征向量的加权和相加来预测成对用户服务的QoS值，即基于嵌入的位置感知因子分解机模型

自治系统是一个小的单元，它有权自主地决定在系统中使用哪个路由协议。AS是独立可管理的网络单元(如大学、企业或公司)。每个AS都有一个单独的id。它被称为ASN。ASN ASN之所以重要，是因为它唯一地标识Internet上的每个网络。

数字3.提供我们LANFM模型的整体框架。我们方法的核心部分是定位的定位分解机模型。为了更好地描述模型，我们提供了一个如图所示的插图4.．首先,用户信息(用户id、用户ASN id和用户id)和服务信息(服务id, ASN id, id)和服务国家表示为一个炎热的编码(例如,一个炎热的编码向量:(1 0)、(0 1 0)、(1 0 0 0 0)、(0 1 0)、(0 1 0 0),(1 0 0 0))。其次，将用户信息和服务信息的一次性编码形式表示为各种嵌入向量(如: ）通过应用神经网络技术。第三，嵌入矢量的内在产品（即，用户信息嵌入向量和服务信息嵌入矢量（例如，）)，随着特征向量的加权和（例如，），用于预测QoS值。最后，可以获得成对用户服务的预测得分(例如，）。

4.位置感知分解机模型

在本节中，我们提供了用于预测QoS值的定位定位分解机方法的细节。我们的LANFM模型主要由三个组件组成：位置信息处理，基于嵌入的分解机模型和模型学习。这些组件的细节显示在以下小节中。

4.1。位置信息处理

本节将介绍Web服务和用户位置信息的处理，这是位置感知因子分解机模型的基础。

我们的数据集中Web服务和用户的原始位置信息显示在表中1和2,分别。Web服务的位置信息包括Web服务ID，WSDL地址（URL），服务提供商名称和服务的国家/地区名称。用户的位置信息由用户ID，用户的IP地址，用户国家名称，经度和纬度组成。To obtain the more exact services’ location information and users’ location information, we map the WSDL address and the user’s IP address to ASN (Since the WSDL address of Web service is already known, it is easy to transfer the DNS (Domain Name System) of the URL to IP address and then map the IP address to ASN). The mapping operation is done by leveraging the GeoLite Autonomous System Number Database (http://www.maxmind.com). After a series of processing, the final representations of Web services’ location information and users’ location information are correspondingly listed in Tables3.和4.．


Web服务ID.	WSDL的地址	供应商的名字	国家的名字

1	http://www.clearsale.com.br/aplicacao/entrada.asmx?wsdl.	clearsale.com.br	美国

2	http://www.law.uni-sofia.bg/_vti_bin/People.asmx?wsdl	Uni-sofia.bg.	保加利亚

3.	http://www.etfo.ca/_vti_bin/authentication.asmx?wsdl.	etfo.ca.	加拿大

4.	http://www.webxml.com.cn/WebServices/WeatherWebService.asmx?WSDL	webxml.com.cn.	中国

5.	http://www.emris.cz/_vti_bin/businessdatacatalog.asmx?wsdl.	EMRIS.CZ.	捷克共和国


用户身份	用户的IP地址	国家	经度	纬度

1	12.108.127.138	美国	40.44	-79.96.

2	122.1.115.91.	日本	36	138

3.	128.233.252.11	加拿大	52.13	-106.67

4.	129.242.19.196	挪威	69.67	18.97

5.	202.38.99.68	中国	39.93	116.39


Web服务ID.	国家的名字	ASN

1	美国	33070

2	保加利亚	5421

3.	加拿大	36031.

4.	中国	23650

5.	捷克共和国	43541


用户身份	国家的名字	ASN

1	美国	7018.

2	日本	4713.

3.	加拿大	22950

4.	挪威	224

5.	中国	4538

请注意，我们使用ASN而不是IP地址或WSDL地址，因为关闭IP地址(例如，4.67.68.0和4.67.64.0)不一定属于同一个AS或国家(例如，加拿大和日本)。这表明，使用IP地址表示Web服务和用户的位置信息可能不足以识别相邻用户或相邻Web服务。此外，Internet上用户之间的距离通常是利用Internet as级拓扑[31]．以上分析给出了采用代表用户或服务的位置而不是其他地理位置的原因。通过将用户和服务的位置信息表示为上述形式，我们可以准确且容易地测量用户和Web服务之间的亲密关系。

4.2。嵌入基于分解机模型

通过位置信息处理，获取用户id、用户国家名称、用户ASN、服务id、服务国家名称、服务ASN。然后，我们将用户的国家名和ASN分别转换为用户的国家id和ASN id。该服务的国家名称和ASN也经历了同样的转变。此外，我们利用一次性编码来表示用户id、服务id、用户国家id、用户ASN id、服务国家id和服务ASN id(即图中的id层)5.）。单热编码是一种有效的编码方法，它使用位状态寄存器以编码州。每个状态都有自己的寄存器位，在任何时候，只有一个寄存器位是有效的[32]．表格5.给出了一个用一次热编码表示七大洲的例子。


的名字	一个热编码

亚洲	1000000

非洲	0100000.

北美	0010000

南美洲	0001000

南极洲	0000100

欧洲	0000010

大洋洲	0000001

单个热编码到嵌入的映射是通过完全连接的层。近年来，嵌入是一种非常受欢迎的神经网络技术。它试图从原始输入数据中学习功能交互。嵌入将数据从高阶资源空间中的数据投影到低阶目标空间[33]．LANFM模型可以通过利用嵌入技术概括为未观察的特征组合，并保留结构。例如，我们有两种类型的功能：商品= 与性别= 那并获得一套新的横向功能：MACERM_GENDER = - ．这个组合中的交叉特征(也称为组合特征)意味着一个男性(或女性)购买一个手表(或一条项链)。假设我们得到一个子集，它收集了男性买手表，女性买手表和女性买项链的信息。但我们并没有得到这样的信息，一个男性买了一条项链，并需要预测这种可能性。这类问题很难通过上述方法来解决。然而，我们的LANFM模型可以通过学习交叉特征的分布式表示和捕获商品与性别之间的交互作用来解决这个问题。

映射过程的细节是以下之一：首先，用户信息的单热编码表示和服务信息被视为完全连接层的输入特征（即图中的单热编码层5.）。接下来，计算完全连接层中的每个链路的权重。最后，通过完全连接的层（即，图中的嵌入层）获得用户信息的嵌入表示和服务信息5.）。通过嵌入技术可以解决高尺寸的问题。请注意，图中的红线5.代表嵌入矢量的每个尺寸值。该过程是位置感知分解模型的一部分，并且在训练过程中通过随机梯度下降来学习最终嵌入向量。有关模型学习的详细信息将在以下小节中引入。

让表示输入特征向量。它由用户信息的单热编码表示（例如，用户ID，用户ASN ID和用户国家ID）以及服务信息（例如，服务ID，服务的ASN ID和服务的国家/地区ID）连接。然后，基于嵌入的分子化机型方程式被定义为在是特征矢量的长度。是个th嵌入向量。是各种嵌入矢量的内在产品（例如，用户ID嵌入媒体，用户国家嵌入向量，用户作为嵌入矢量，服务ID嵌入向量，服务国家嵌入向量和服务作为嵌入向量的传染媒介）。是全球偏见，还是是的重量变量。公式中的前两项表示线性回归模型。第三项是考虑任意两个不同特征之间的关联信息的双向交叉特征。

交叉功能的公式如下：在是一种确定嵌入向量的维度的封路数据。是个的Th值用户信息或服务信息的嵌入向量。

各种嵌入载体之间的相互作用可以如下重新重整： Eq.(推导细节3.)在[13]．

4．3．模型的学习

为了估算我们的LANFM模型的性能，我们进行损失函数来评估估计值与实际值之间的误差。在数学上，LANFM模型的丢失功能表示为在哪里是指标功能。如果是用户使用一个服务那等于1;否则，它等于0。我们的目标是最小化误差平方和。这样，我们可以达到最优的损失。

随机梯度下降(SGD) [34]在机器学习和深度学习的通用优化方法。它随机在一个时间从样品中提取的标本并通过梯度更新一次训练。在一个大的样本大小的情况下，可以在没有训练所有的样品获得具有可以接受的损失值的模型。此外，损失函数的最终结果往往是在全局最优解附近。由方程给出的损失函数的优化。（4.)可以通过执行SGD in来计算：

以下公式用于更新模型参数：在哪里是模型参数（例如，那），是学习率，以及控制梯度下降的速度。

4.4。复杂性分析

我们的位置感知因子分解机模型的主要计算是损失函数的评估以及它对变量的梯度。我们只需要计算所有的在公式在第一次迭代参数时，因为同事与密切。然后，所有梯度可以很容易得到。显然，计算整体的复杂性在公式是．计算参数每一个梯度的复杂度为什么时候是已知的。求得参数梯度后，参数更新的时间复杂度为．总共有 LANFM模型中要估计的参数。因此，我们的LANFM模型的时间复杂性是．总之，我们的LANFM模型的训练时间复杂度是线性的。上述分析过程表明了该模型的有效性和可扩展性。

5.实证研究

在本节中，我们对一个公共数据集进行了一系列的实证研究。此外，将LANFM模型与几种基线方法进行了比较，验证了我们的LANFM模型的有效性，并对实验结果进行了分析。

在下面的小节中，小节描述了WSDream数据集的详细统计信息5.1．评估指标如本节所示5.2．所提出的LANFM模型和其他基线方法之间的性能比较中科介绍5.3.．参数的影响(例如，矩阵密度、嵌入向量的维数和批大小[35])(即每批数据的大小，即每次迭代训练多少个样本)，对实验结果的讨论在章节中给出5.4.那5.5.，和5.6.,分别。

5.1。数据集描述

我们在真实的数据集WSDream (https://wsdream.github.io/dataset/wsdream_dataset1.html)上实现了一组实验。用户和服务的位置分布如图所示6.．WSDream数据集包括339个分布式用户，5,825个服务和1,974,675个用户和服务之间的历史调用日志。用户的AS和Web服务'AS的数量为137和1021. WSDream数据集中的QoS属性是响应时间和吞吐量。响应时间的值范围为0到20.吞吐量值从0到1000变化。我们数据集的详细信息在表中介绍6.．


统计数据	值

服务用户数量	339.

Web服务数量	5825.

Web服务调用数量	1,974,675

响应时间范围	0-20s

吞吐量范围	0 - 1000 kbps

用户数量屁股	137

用户国家数量	31

Web服务应用服务器个数	1021.

Web服务国家数量	74.

(a)服务使用者的位置分布情况

（b）网络服务的位置分布

在本文中，我们尝试对用户的上述两个QoS属性进行预测。通过对用户服务调用矩阵中的QoS属性进行适当的修改，我们的LANFM模型适用于预测任何QoS属性。

5.2。评价指标

我们采用两个评价指标，平均绝对误差(MAE)和归一化平均绝对误差(NMAE)，来衡量我们提出的方法的性能。这两个指标衡量预测值和实际值之间的接近程度[36]．mae表示为 NMAE的数学表达式为在这里,是预测QoS值的数量，是预测的QoS值，和是数据集中真实的QoS值。MAE和NMAE值越小，模型的性能越好。

5.3。性能比较

为了评估LANFM模型的性能，引入了以下基线方法进行比较。基线方法从基于内存的协作滤波方法和模型的协作滤波方法变化，以及混合协作滤波方法的方法：（1）UIPCC [4.]：此方法统一基于用户的协同过滤方法和基于项目的协作滤波方法来预测用户QoS。它基于找到类似的用户和类似服务（2）概率矩阵分解[37:该方法假设数据分布为高斯分布。它将用户服务调用矩阵分解为用户潜在矩阵和服务潜在矩阵。然后利用这两个潜在矩阵的乘积对用户的QoS进行预测（3)非负矩阵分解[38]：此方法还利用用户 - 服务调用矩阵来获得用户潜在矩阵和服务潜矩阵。但它增加了一个限制，即应分解潜伏矩阵应该是非负的（4）nimf（邻域集成矩阵分解）[5.:这种方法首先计算任意两个用户之间的相似度。然后将相似用户信息与QoS记录相结合进行矩阵分解。最后，对用户的QoS进行预测(5)EFMPred（嵌入基于因式分解机）[14]：此方法首先将用户ID和服务ID嵌入到向量。然后，它使用因子化机器来预测用户QoS（6)Regionknn（Region K最近邻居）[27]:该方法首先根据位置信息和QoS值对用户和服务进行聚类。然后利用聚类结果对用户的QoS进行预测（7）位置感知协同过滤[12]:该方法结合用户和服务的位置信息，采用位置感知的协同过滤方法对用户的QoS进行预测（8）LBR（基于位置的正则化）[28]:该方法利用用户之间的局部连通性，结合经典矩阵分解框架中的正则化项对用户的QoS进行预测（9）HMF（分层矩阵分解）[29]：此方法首先根据位置信息组首先组分组用户和服务。然后，它统一了本地矩阵分解和全局矩阵分组的结果，以预测用户的QoS

实际上，用户只能援引一部分服务。因此，用户和服务之间的调用矩阵显着稀疏。我们将DataSet划分为培训集和测试集，通过随机删除用户和服务之间的调用矩阵的一部分元素。例如，如果我们从调用矩阵中删除90％元素，那么这些90％的元素被视为测试集;其余的10％元素被视为培训集。

我们LANFM模型和其他基线方法之间的性能比较结果列于表7.．它可以被发现，LANFM始终实现在这两个评价标准（即，MAE和NMAE），无论在服务质量属性是否是响应时间和吞吐量的最佳性能。具体而言，基于矩阵的因子分解的方法的性能（例如，PMF，NMF，NIMF，LBR，并且HMF）比基于存储器的方法具有更好的（例如，UIPCC，LACF和RegionKNN）由于学习潜在因子。此外，分解机为基础的方法（例如，EFMPred和LANFM）优于矩阵因式分解基于的方法由于学习的用户信息和服务信息的交叉功能。此外，LANFM性能优于EFMPred作为考虑更重要的特征（例如，用户的位置信息和服务的位置信息）的结果。与EFMPred相比，LANFM为0.06％至6.98％的响应时间的性能改进和1.52％的性能提高到3.46％的吞吐量。此外，当训练数据是稀疏，性能提升更加明显。在现实中，我们得到的数据非常稀少。观察表明我们LANFM模型可以应用于稀疏数据。这里，仅结果的一部分（例如，10％，20％，80％，和90％）被呈现在表中。 The experimental results under all matrix density will be introduced in Section5.4.．


QoS属性	方法	矩阵密度= 10%		矩阵密度= 20％		矩阵密度= 80％		矩阵密度= 90%
		美	NMAE	美	NMAE	美	NMAE	美	NMAE

响应时间（0-20s）	UIPCC.	0.5842	0.6433	0.4514	0.4970	0.3475	0.3822	0.3443	0.3785
	Lacf.	0.5612	0.6181	0.4778	0.5262	0.3692	0.4062	0.3637	0.3995
	RegionKNN	0.5491	0.6048	0.5155	0.5677	0.4950	0.5446	0.4860.	0.5338
	PMF.	0.4865	0.5361	0.4305	0.4743	0.3751	0.4123	0.3733	0.4098
	NMF	0.4774	0.5261	0.4269	0.4703	0.3723	0.4093	0.3705	0.4068
	尼姆	0.4792	0.5281.	0.4202	0.4630.	0.3665	0.4029.	0.3677	0.4037
	LBR.	0.4806	0.5293	0.4301	0.4737	0.3761	0.4138	0.3736	0.4103
	HMF.	0.4815	0.5302	0.4298	0.4732	0.3734	0.4110	0.3698	0.4070
	EFMPred	0.3878	0.4083	0.3332	0.3606	0.2641	0.2910	0.2599.	0.2825
	LANFM.	0.3607	0.3966	0.3247	0.3571	0.2635	0.2903	0.2577	0.2823
	提升	6.98	2.85	2.55	0.97	0.24	０．２５	0.84	0.06

吞吐量(0 - 1000 kbps)	UIPCC.	22.3274	0.4700	18.8646	0.3966	13.5460.	0.2845	13.0623	0.2776
	Lacf.	19.4303	0.4087	16.4495	0.3459.	12.4200	0.2609	12.1073	0.2545
	RegionKNN	24.8487	0.5226	24.0169	0.5050	24.0414	0.5050	23.9013	0.5023
	PMF.	15.9794	0.3362	13.9052	0.2924	12.1408.	0.2551	11.9442	0.2520
	NMF	15.5678	0.3275	13.5386	0.2847	11.9260	0.2506	11.7964	0.2489
	尼姆	15.1393	0.3185	13.1799	0.2772	11.8641	0.2493	11.7977	0.2489
	LBR.	15.4431	0.3248	13.6455.	0.2869	12.1012	0.2542	11.9560	0.2513
	HMF.	15.7076	0.3304	13.5961	0.2859.	11.6637	0.2450.	11.5562	0.2429
	EFMPred	13.2966	0.2811	11.4295.	0.2417	8.6713	0.1829	8.3839	0.1773
	LANFM.	12.8365	0.2714	11.0560	0.2338	8.5160.	0.1796	8.2561	0.1746
	提升	3.46	3．45	3.27	3.27	1.79	1.80	１．５２	１．５２

5.4。矩阵密度的影响

矩阵密度是影响QoS预测准确性的一个重要参数。它意味着我们可以利用用户和服务之间的历史调用记录来帮助预测QoS值。将调用矩阵的密度从10%更改为90%，以研究矩阵密度的影响。步长设置为10%。在本实验中riment，响应时间的嵌入向量维数为30。关于吞吐量，维数值为1400。批量大小为4096。

数据7(一)和7（b）展示所有方法在响应时间方面的MAE和NMAE预测性能。数据7(一)和7（b）表明，当矩阵密度从10％增加到50％时，MAE和NMAE值的下降趋势是显着的。然而，当我们将密度从50％增加到90％时，MAE和NMAE值的减少相对较慢。数字的趋势7（c）和7（d）和Figures一样吗7(一)和7（b）．这种现象表明，通过将矩阵密度作为参数来评估模型的性能是合理的。所有关于图的观察7.说明适当增加QoS信息有助于解决数据稀疏性问题。此外，适当增加QoS信息也有利于提高QoS预测结果。

(一)

(b)

(c)

（d）

5.5。尺寸的影响

嵌入向量的维数是影响LANFM模型性能的另一个参数。它决定用多少因素来描述特征。在本实验中，我们将响应时间的嵌入向量的维度从5改变为50，以研究维度的影响。步长设置为5。对于吞吐量，维度值从200到1800不等，步长为200。批量为4096

数据8（a）-8（f）给出了LANFM模型对响应时间的预测性能，其中基质密度相应地设置为10%、50%和90%。响应时间的实验结果分析如下:(1)在10%时，MAE值和NMAE值随维数的增加而增大。这表明，当矩阵相当稀疏时，较小的维数可能适合提高QoS预测精度。(2)在50%和90%时，MAE和NMAE值先下降后上升。当尺寸为30时(50%)，MAE值最低;当尺寸为35时(90%)，NMAE值最低。这一观察表明，当矩阵密集时，较大的维度可以更好地提高QoS预测的准确性。但如果维数设置太大，可能会导致过拟合问题，导致预测结果较差。

(一)

(b)

(c)

（d）

（e）

（F）

（G）

（H）

（一世）

（j）

（k）

（l）

数据8（g）-8（l）显示LANFM模型对吞吐量的预测性能，其中矩阵密度相应设置为10%、50%和90%。请注意，为了更好地显示，尺寸比例除以100。吞吐量的实验结果分析如下：（1）10%和90%时，吞吐量的MAE和NMAE值先减小后增大。MAE和NMAE的最佳值分别为600和1400。（2）对于50%，这表明当嵌入向量的维数从200增加到1800时，吞吐量的MAE和NMAE值总体呈下降趋势。具体来说，当维数从200到1400时，MAE和NME值迅速下降，然后逐渐收敛。当尺寸从1400变为1800时，MAE和NME值围绕局部最小值振荡。当尺寸为1400时，可获得第一个最小值。虽然我们也可以在1800时获得最小值，但更大的维度需要更大的时间复杂性。

对数字的观察8（g）-8（l）表示当矩阵非常稀疏时，嵌入载体的小维度更好地产生精确的QoS值。虽然矩阵是密集的，但相对大的尺寸可以提高QoS预测的准确性。请注意，响应时间的维度小于吞吐量的维度，因为吞吐量值的比例大于响应时间的规模。

5.6。批量大小的影响

在可以执行权重更新之前，批量大小定义要在网络上显示的训练样本的数量。批量尺寸是通过全面考虑训练时间和收敛速度来确定的。当批量大小设置较大时，每个时期的训练速度更快。但收敛速度较慢。为研究批量尺寸的效果，我们将批量大小从64到5120改为两个QoS属性。在该实验中，调用基质的密度设定为10％，50％和90％。响应时间的嵌入向量的维度为30.对于吞吐量，将其设置为1400.值得注意的是，5120是我们GPU的最大内存。

图中介绍了LANFM模型的预测性能9（a）-9 (f)，我们可以观察到:(1)在10%时，当批大小从64增加到1024时，MAE值和NMAE值显著降低。当它在1024到5120之间时，两个值都围绕局部最小值振荡。我们可以在4096得到最好的值。(2)对于50%，当批量从64增加到1024时，MAE值和NMAE值显著降低。当批大小从1024到3072时，MAE和NMAE的下降速度变慢。最后，MAE和NMAE值都收敛。由此可见，在批量较小的情况下，增大批量可以大大提高QoS预测精度。当批量较大时，改善就不那么明显了。(3)对于90%，当批数从64到2048时，MAE和NMAE值迅速下降，然后在批数为4096时达到最小值。观测结果表明，当矩阵非常稀疏时，小批量(例如1024)对于提高QoS预测的准确性是非常有用的。 While the matrix is dense, a lager batch size (e.g., 4096) is more useful to upgrade the accuracy of QoS prediction.

(一)

(b)

(c)

（d）

（e）

（F）

（G）

（H）

（一世）

（j）

（k）

（l）

如图所示9 (g)-9(左)，当将批量大小从64到3072增加时，MAE和NMAE的吞吐量迅速下降。当批量尺寸为3072至5120时，MAE和NMAE值逐渐收敛。观察表明，当批量尺寸小时，放大它可以大大提高QoS预测精度。然而，在超过某个阈值（例如，批量尺寸= 3072）之后，增强不是那么明显。

6.结论

本文利用神经网络中的嵌入技术，提出了一种位置感知的因子分解机方法。首先，考虑服务和用户的位置信息。其次，将用户信息和服务信息表示为嵌入向量，挖掘用户与服务之间的潜在关系。最后，利用嵌入向量的内积和特征向量的加权和进行QoS预测。采用神经网络技术和因子分解机模型有三个优点：（1）可以降低原始输入特征向量的维数；（2）解决了大数据稀疏性问题；我们的LANFM模型的时间复杂度是线性的。也就是说，我们的LANFM模型能够解决三个缺点：高维、高时间复杂度和高实现开销。因此，我们的LANFM模型具有良好的可扩展性。它适用于大规模数据集。在WSDream数据集上进行了一系列综合实验，以验证我们的LANFM模型的有效性。首先，我们评估了我们的方法和其他最先进的基线方法在不同矩阵密度下的性能，这表明我们的LANFM模型总是达到最佳性能。然后，我们研究了嵌入向量的维数对性能的影响，以确定嵌入向量的大小，这表明，对于这两个QoS属性，当矩阵非常稀疏时，相对较小的嵌入大小有利于提高性能；当矩阵密集时，相对较大的维数可以更好地提高QoS预测的准确性。最后，我们研究了批量大小的影响，批量大小是影响优化算法性能的一个重要参数。结果表明，对于响应时间，当矩阵非常稀疏时，相对较小的批量有助于提高预测性能；当矩阵密集时，相对较大的批量更有利于提高QoS预测精度。对于吞吐量，当批大小相对较小时，增加批大小将提高预测性能。当超过某个阈值时，改善就不那么明显了。

实际上，响应时间和吞吐量在网络环境中动态变化，因此应考虑时间因素。因此，我们将尝试构建一个更强大的模型，它考虑了时间信息，以预测未来的用户的QoS值。另外，在以前的工作中很少研究其他QoS属性（例如，可靠性，可用性和失败概率）。因此，我们想调查我们的下一个工作中的其他QoS属性。

数据可用性

用于支持本研究结果的QoS数据可以在https://wsdream.github.io/dataset/wsdream_dataset1.html网站公开访问。

披露

zibin zheng是相应的作者。

利益冲突

作者声明他们没有利益冲突。

致谢

国家重点研发计划项目(no . 2017YFB0202201);国家自然科学基金项目(no . 61702568;广东省创新创业团队引进计划资助项目(2017ZT07X355);中央高校基本科研业务费资助项目(no. U1711267);17 lgpy117。

参考

L.-J.张，H.Cai和J.张，服务计算，斯普林斯，2007年。
L. Zeng，B. Benatallah，A.H.H. Ngu，M. Dumas，J. Kalagnanam和H. Chang，“Web服务组成的QoS-Aware中间件”IEEE软件工程汇刊，卷。30，没有。5，pp。311-327，2004。视图:出版商的网站|谷歌学术
陈s . Chen, Peng Y. Peng, H. Mi, C. Wang, and Z. Huang，“一种基于聚类特征的web服务推荐中的QoS预测方法”IEEE面向服务的系统工程(SOSE)研讨会论文集，pp.246-251，IEEE，班贝格，德国，2018年。视图:出版商的网站|谷歌学术
Z. Zheng，H. Ma，M. R.Lyu和I. King，“QoS感知网络服务推荐通过协作过滤”IEEE服务计算汇刊，第4卷，第4期。2, pp. 140-152, 2011。视图:出版商的网站|谷歌学术
郑铮，马海华，吕明仁，“基于邻域矩阵分解的协同web服务Qos预测”，IEEE服务计算汇刊，第6卷，第2期3，pp。289-299,2013。视图:出版商的网站|谷歌学术
“基于非负矩阵分解的网络服务质量预测方法”，智能与模糊系统杂志：工程与技术的应用，卷。30，没有。6，第3593-3604，2016。视图:出版商的网站|谷歌学术
吴华，岳凯，李斌，张斌，张春华。基于上下文敏感矩阵分解的协同QoS预测未来一代计算机系统，卷。82，pp。669-678,2018。视图:出版商的网站|谷歌学术
L. Kuang，L. Yu，L. Huang等，“基于声誉和位置感知协作过滤的CPS服务推荐的个性化QoS预测方法”传感器第18卷第2期5, p. 1556, 2018。视图:谷歌学术
刘建军，唐敏，郑志刚，刘旭东，吕淑玲，“基于位置感知和个性化的web服务推荐协同过滤”，IEEE服务计算汇刊，卷。9，不。5，pp。686-699，2016。视图:出版商的网站|谷歌学术
K. Lee，J. Park和J.Baik，“基于位置的Web服务QoS预测通过偏好传播来改善冷启动问题”IEEE国际网络服务会议论文集， pp. 177-184, IEEE, New York, NY, USA, 2015。视图:出版商的网站|谷歌学术
陈新宇，郑振宇，“基于位置和QoS信息的Web服务推荐”，IEEE并行和分布式系统汇刊，卷。25，不。7，pp。1913-1924,2014。视图:出版商的网站|谷歌学术
刘建平，“基于位置感知的基于服务推荐的协同过滤”第19届Web服务国际会议（ICWS）的诉讼程序， pp. 202-209, IEEE, 2012。视图:出版商的网站|谷歌学术
S. Rendle的《因式分解机器》第十届国际数据挖掘会议论文集，页995-1000,IEEE，澳大利亚，2010。视图:出版商的网站|谷歌学术
吴宇宇，谢芳，陈立新，“基于嵌入的因子分解机器方法的web服务质量预测”面向服务计算国际会议论文集，第272-286页，施普林格，2017。视图:谷歌学术
J.S. Breese，D. Heckerman和C. Kadie，“协作过滤的预测算法的实证分析”第十四届人工智能不确定性会议论文集，第43-52页，摩根考夫曼出版社，1998。视图:谷歌学术
J.L. Herlocker，J.A.Konstan，A. Borchers和J.Riedl，“用于执行协作过滤的算法框架”信息检索研究与发展第22届国际ACM SIGIR年会论文集，第230-237页，ACM, 1999。视图:谷歌学术
G. Linden，B. Smith和J. York，“Amazon.com建议：项目到项目协作过滤”，IEEE网络计算，第7卷，第5期1, pp. 76-80, 2003。视图:出版商的网站|谷歌学术
B. Sarwar, G. Karypis, J. Konstan，和J. Riedl，“基于条目的协同过滤推荐算法”第十届全球网络会议的诉讼程序（WWW），第285-295页，ACM, 2001。视图:出版商的网站|谷歌学术
J. Wang, A. P. D. Vries，和M. J. Reinders，“通过相似度融合统一基于用户和基于物品的协同过滤方法”第29届国际信息检索研究与发展SIGIR会议论文集，页501-508，美国华盛顿州西雅图，2006。视图:出版商的网站|谷歌学术
孙慧，郑正哲，陈建军，吕先生，“基于正常恢复协同过滤的个性化web服务推荐”，IEEE服务计算汇刊，第6卷，第2期4, pp. 573-579, 2013。视图:出版商的网站|谷歌学术
熊文，李斌，何磊，陈敏，陈建军，“基于不均衡数据分布的协同web服务QoS预测”2014年国际网络服务国际会议（ICWS）的诉讼程序，pp.377-384，IEEE，安克雷奇，AK，美国，2014年。视图:出版商的网站|谷歌学术
Y. MA，S. Wang，P.C. Hung，C. H. Hsu，Q. Sun和F. Yang，一种高准确的预测算法，用于未知的Web服务QoS值，“IEEE服务计算汇刊，卷。9，不。4，第511-523，2016。视图:出版商的网站|谷歌学术
徐军，郑振中，吕先生，“基于信誉矩阵分解的Web服务个性化服务质量预测”，可靠性的IEEE交易，卷。65，不。1，pp。28-37,2016。视图:出版商的网站|谷歌学术
X. Luo，M. Zhou，Y. xia和Q.朱，“通过非负性约束下基于矩阵分解的协作滤波预测Web服务QoS，”第23个无线和光学通信会议（WOCC）的诉讼程序， pp. 1-6, IEEE, Newark, NJ, USA, 2014。视图:出版商的网站|谷歌学术
Z. Chen，L. Shen，D.您和F. Li，“用户依赖网络服务QoS协作预测方法使用邻域正则矩阵分解”第20届国际计算机支持设计协同工作会议论文集，第316-321，IEEE，中国在2016年。视图:谷歌学术
W.LO，J. Yin，S. Deng，Y.Li和Z.Wu，“服务选择QoS预测的扩展矩阵分解方法”国际服务计算会议论文集，页162-169,IEEE，火奴鲁鲁，HI，美国，2012。视图:出版商的网站|谷歌学术
陈旭东，刘旭东，黄志煌，“基于可扩展协同过滤的个性化web服务推荐算法”，计算机科学与技术，2018,35 (6):758 - 763第8届国际网络服务会议论文集，pp.9-16，IEEE，2010年。视图:出版商的网站|谷歌学术
尹建平，李勇，吴振宇，“基于位置正则化的协同web服务QoS预测”，自动化学报第19届Web服务国际会议（ICWS）的诉讼程序，第464-471页，IEEE，檀香山，夏威夷，美国，2012。视图:出版商的网站|谷歌学术
何平，朱俊杰，郑振中，徐俊杰，吕明仁，“基于位置的层次矩阵分解的Web服务推荐”，出版第21届国际网络服务会议论文集，pp.297-304，IEEE，2014。视图:出版商的网站|谷歌学术
李建军，刘超，王建军，“基于最大化的地缘社会影响”，《地理学报》，2018年第4期。IEEE知识与数据工程汇刊，卷。29，不。8，pp。1653-1666,2017。视图:出版商的网站|谷歌学术
张国栋，唐明华，程绍成等，“P2P流量优化”，《计算机工程》，科学中国信息科学，第55卷，第7期，第1475-1492页，2012年。视图:出版商的网站|谷歌学术
S. Golson，“用于fpga的单热状态机设计”第三届PLD设计年会暨展览论文集， 1993年第1卷。视图:谷歌学术
He和T. Chua，“用于稀疏预测分析的神经因子分解机器”，刊于第40届ACM SIGIR国际信息检索研究与发展会议论文集，页355-364，新宿，东京，日本，2017。视图:出版商的网站|谷歌学术
L. botou，“基于随机梯度下降的大规模机器学习”COMPSTAT 2010年会论文集，pp.177-186，Springer，Berlin，Germnay，2010年。视图:谷歌学术|Mathscinet.
S. Ioffe和C. Szegedy，“批处理归一化:通过减少内部协变量移位来加速深度网络训练”第32届国际机械学习会议（ICML）的诉讼程序，pp.448-456,2015。视图:谷歌学术
C. J. Willmott和K. Matsuura，“在评估平均模型性能时，平均绝对误差(MAE)相对于均方根误差(RMSE)的优势”，气候研究，卷。30，没有。1，pp。79-82,2005。视图:出版商的网站|谷歌学术
R. Salakhutdinov和A. Mnih，“概率矩阵分解”，掐， vol. 1, no. 11，页1257-1264,2007。视图:谷歌学术
D. D. Lee和H. S. Seung，“通过非负矩阵分解学习物体的部分”，“自然，第401卷，第1期第1页，第2 - 3页，1999。视图:出版商的网站|谷歌学术

复杂性