用于移动无线网络中大数据授权儿子框架的多变量多元回归模型

摘要

在5G时代，移动无线网络的运营成本将大幅增加。此外，还需要巨大的网络容量和零延迟，因为所有东西都将连接到移动网络。因此，需要加快移动无线网络自动运行的自组织网络(SON)，但在满足5G需求方面存在挑战。因此，研究人员提出了一个利用大数据赋予SON能力的框架。最近的大数据授权SON框架使用机器学习工具分析关键性能指标(kpi)和相关网络参数(NPs)之间的关系，并使用带有这些参数的高斯过程开发回归模型。然而，问题是，找到与kpi相关的np的方法各不相同。此外，高斯过程回归模型不能确定KPI与其各种相关NPs之间的关系。为了解决这些问题，本文提出了多元多元回归模型来确定各kpi与NPs之间的关系。如果我们假设一个KPI和多个NPs为一个集合，所建议的模型可以帮助我们一次处理多个集合。同时，我们也可以发现一些kpi是否存在冲突。 We implement the proposed models using MapReduce.

1.介绍

自组织网络(SON)技术已经发展到在日益复杂的环境中更经济地管理无线通信和移动网络[1那2］．然而，SON并不完全处理移动无线网络中所有来源的数据，如基于移动应用程序的数据(移动数据)和信道基带功率(无线通信信息)[3.那4.］．因此，儿子遇到妨碍当前自组织网络范例遇到5G要求的挑战，因为5G网络更复杂[4.］．

因此，工程师提出了一个大数据赋权儿子（BSON），它在移动无线网络中开发一个具有大数据的儿子。BSON，目前为5G的必要技术[3.-6.]，仍处于其初始阶段。实际上，在其当前的迭代中，它不足以实际使用。BSON框架是在[4.[包括在移动无线网络中使用大数据的具体概念，并将其应用于儿子。它排名关键绩效指标（KPI），选择与每个KPI相关的网络参数（NPS），并创建高斯进程回归模型，其中KPI是从属变量，并且与此KPI相关的每个NP是独立变量。然后将高斯过程回归模型应用于儿子发动机以进行管理优化。在这方面，从无线通信运营商的角度来看，KPI包括能力，服务质量（QoS），资本支出（CAPEX）和业务支出（OPEX）。此外，从用户的角度来看，KPI包括无缝连接，服务的时空均匀性，对几乎无限的容量或零延迟的需求以及服务费用。例如，由于5G技术旨在连接汽车，可穿戴设备和家庭网络等一切，并帮助人类逃避紧急情况，在无线生态系统中需要大量网络容量和零延迟。

这个bson框架[4.，但也有需要改进的地方。例如，与KPI相关的各个np的选择相当复杂，因为一个典型的5G节点预计有2000多个参数。而且，在单个高斯过程回归模型中，根据NP值计算出准确的KPI值是很困难的[7.］．为了解决这些问题，我们提出了多元回归模型[8.，这使我们能够轻松地区分与每个KPI相关的np与那些不相关的np。同时，我们可以生成可以立即应用于SON引擎的模型。由于可用的NPs数量庞大，我们需要利用MapReduce解决两个大矩阵的乘法和大矩阵的逆问题，进行多重回归。我们描述和实现的方法，计算矩阵组成的KPI和NPs多个回归模型使用MapReduce [8.］．

然而，这些多元回归模型遭受了缺点。我们可以在单一时间计算仅一个KPI和NPS之间的关系。然而，识别各个KPI之间的关系和在单一时间的所有NP之间的关系是重要的，因为某些KPI是冲突的，例如QoS和Capex之间的关系。如果我们想知道KPI和NPS之间的关系，我们需要单独计算每个KPI的多元回归。因此，在本文中，我们提出了改进的模型，即多变量多元回归模型，这有助于我们在单一时间确定KPI和NP之间的关系。我们在下一节解释了这些模型。

本文的其余部分组织如下。部分2提供5G和BSON框架中的大数据的背景，多元回归模型，MapReduce和分解。部分3.探索BSON Framework的提议多变量多元回归模型，并使用MapReduce描述这些模型的实现。部分4.给出了这些模型算法的理论时间复杂度。部分5.呈现MapReduce的实现和结果，以在云中执行这些模型的执行时间。最后，我们在部分中得出本文6.．

儿子促进了移动无线网络的自动运行。它最初利用移动无线网络中的大数据来改进网络。目前的研究致力于BSON [3.］．研究人员[4.]提出了BSON框架。

２.１.儿子

操作移动无线网络是一个具有挑战性的任务，尤其是由于它们的潜在复杂性而在蜂窝移动通信系统中。这种复杂性来自其配置中的网络元素数量和互连。在异构网络中，处理各种技术及其精确的操作范式很难。如今，规划和优化工具通常是半归类的，管理任务需要受人类运营商密切监督。本手册由人类运营商努力耗时，昂贵，易于出错，并且需要高度的专业知识。儿子可用于通过减少手头的任务并通过最小化人为错误来降低运营成本。下一个小节细则儿子分类。

2.1.1。自我配置

在网络终端的部署，扩展和升级期间，需要配置基站（eNB），中继站和毫微微小区。当需要系统的变化时，例如节点的故障，网络性能下降或服务类型的更改时，也可能需要配置。在未来的系统中，必须使用自配置替换手动配置的传统过程。我们可以预见到未来蜂窝网络中的节点应该能够自配置其包括IP地址，邻居列表和无线电访问参数的所有初始参数。

2.1.2。自我优化

在初始自配置阶段之后，我们需要连续优化系统参数，以确保系统的有效性能以维护所有优化目标。传统系统中的优化可以通过从网络操作中心生成的日志报告的定期驱动器测试或分析来完成。自我优化包括负载平衡，干扰控制，覆盖扩展和容量优化。

2.1.3。自我修复

由于组件故障或自然灾害，无线蜂窝系统容易出现故障和故障。在传统系统中，主要通过集中操作和维护（O＆M）软件来检测故障。记录事件并将其出现必要的警报。当警报无法远程清除时，通常会动员无线电网络工程师并发送到单元站点。在系统恢复正常操作之前，此过程可能需要几天甚至几周。在未来的自组织蜂窝系统中，需要通过巩固自我修复功能来提高该过程。自我修复是一种过程，该过程可以整合远程检测，诊断和触发补偿或恢复动作，以最大限度地减少移动无线网络设备中的故障的影响。

２.２.5G和BSON中的大数据

大量信息来自移动无线网络中的各种元素，例如基站，移动终端，网关和管理实体，如图所示1[3.］．作者在[4.]对蜂窝网络中的大数据进行了如下分类。

2.2.1。订户级别数据

这种分类包含控制数据、上下文数据和语音数据，这些数据不仅可以用于优化、配置和计划以网络为中心的操作，而且对支持关键业务流程(如客户体验和提高保留率)同样有意义。

2.2.2。细胞级数据

该分类包含由基站和所有用户设备报告的物理层测量，以及该基站的覆盖范围内的所有用户设备到O＆M中心。单元格级数据的实用程序可以补充订户级数据。例如，最小化驱动测试测量，其中包含参考信号接收的功率和参考信号接收的服务和相邻小区的质量值，特别适用于自主覆盖估计和优化[9.］．

2.2.3。核心网络级别数据

这种分类可用于完全自动化的故障检测和故障排除网络级别的问题。在核心网络中识别问题的复杂性增加了很多倍，特别是如果使用的设备是由不同的供应商提供的，这些供应商针对不同的网络性能提供自己的专有解决方案。

2.2.4。其他数据来源

此分类包含已存储在单独的数据库中的结构化信息，包括客户关系管理以及计费数据。这还包括来自智能手机内置传感器和应用的社交媒体馈送，特定应用程序使用模式和数据等非结构化信息。

如引言所讨论的那样，儿子技术使用这一上述大数据来改善自己。使用BSON促进此过程。使BSON与最先进的儿子不同的三个主要功能如下：(我)全智能的当前网络状态，（ii）预测用户行为的功能，（iii）动态地将网络响应与NPS动态相关的功能。这三种能力可以在设计一个可以满足5G要求的儿子方面进行很长的路要走。BSON框架如图所示2涉及以下步骤。

第1步（数据收集）。这包括将来自所有信息源的数据收集到聚合数据集。

步骤2（转换）。这包括将大数据转换为正确的数据。
下面解释这个转换中的步骤。随后解释了潜在的机器学习和数据分析。（1）分类．这意味着根据关键的操作和业务目标(OBOs)对数据进行分类，其中包括可访问性、可维护性、完整性、移动性和业务智能。（2）统一/扩散．这意味着将多个PI统一到更重要的KPI。（3）排行．这意味着在每个OBO中排名KPI，了解他们对该OBO的影响。（4)过滤．这意味着过滤掉影响低于预定义阈值的OBO的kpi。(5）有关．对于每个KPI来说，这意味着找到影响KPI的NP。（6）订购．这意味着，对于每个KPI，根据关联的强度对关联NP进行排序。（7）互相关．这意味着，对于每个NP，确定量化其与每个KPI关联的向量。

第3步（建模）。这包括通过使用高斯过程回归和Kolmogorov-Wiener预测，从步骤2中获得的正确数据中学习，建立一个网络行为模型。

第4步（运行儿子引擎）。这包括使用模型上的儿子引擎来确定新的NP和预期的新KPI。

第五步(验证)。如果模拟行为与预期行为（KPI）高，则继续使用新的NPS。

步骤6(再学习/改善)。如果步骤5中的验证失败，请向概念漂移块进行反馈，以转动行为模型更新。

2.3。多元回归模型[8.那10.]

第2步(转换)和第3步(建模)在章节中介绍2.2(BSON框架)被多元回归模型取代。步骤2(转换)和步骤3(建模)中的关键因素是为每个KPI找到相关的NPs，并使用KPI和相关的NPs创建模型。然而，他们应该使用机器学习工具分别确定相关的NPs [11.］．此外，根据NP值的变化计算KPI的精确值是困难的。换句话说，该模型在部分中呈现2.2允许我们根据仅一个NP确定KPI的值，因为该模型仅仅是单一回归模型。

单回归模型如图所示2确定一个KPI和一个NP之间的关系。当然，根据NP存在许多单一回归模型，但在NP值同时变化时计算KPI值是困难的。相反，多元回归模型如图所示3.可以轻松地识别KPI和NPS之间的关系。

我们提出了多元回归模型来增强之前的BSON框架[8.］．多元回归模型写成[10.] 它可以表示为在哪里元素和是NPS和KPI的值，并且参数估计为我们可以创建多元回归模型（）通过计算乘法和（)．数字3.显示计算四个步骤使用MapReduce，我们在[8.］．

２.４.使用MapReduce的矩阵乘法[12.那13.]

MapReduce是一种计算方法，已经在几个系统中实现，包括谷歌内部实现和流行的开源实现Hadoop。(可以从Apache基金会获取Hadoop，以及Hadoop分布式文件系统。)我们可以使用MapReduce的实现来以一种容忍硬件故障的方式管理许多大规模计算。当系统管理并行执行时，只需要编写两个函数——Map和Reduce——协调执行Map或Reduce的任务，并处理其中一个任务无法执行的可能性。

矩阵乘法与一个MapReduce步骤． Ifm是一个元素的矩阵在一行和列和N是一个元素的矩阵在一行和列，然后是产品，是矩阵P.与元素在一行和列,在那里

我们只能使用单个MapReduce Pass来执行矩阵乘法，．在这里，我们介绍了地图的摘要并减少了函数。（1）Map函数．对于每个元素的m，则生成所有键值对(），（））为了达到列的数量N．同样，对于每个元素的N，则生成所有键值对(），（））为了达到列的数量m．（2）Reduce函数．每个键（）将有一个带有所有值的关联列表（）和（的所有可能值．这每个列表上的值必须具有第三个组件，即，和，提取并相乘。然后，添加这些产品，结果与(）在降低功能的输出中。

2.5。matrix反转使用mapreduce [14.]

这算法将矩阵分解为方子矩阵，并分别更新这些子矩阵。block方法分解输入矩阵，如图所示4.．

在这种方法中，下三角矩阵L.和上三角矩阵你既分为三个子属，而原始矩阵一种分为四个子曲线。这些较小的矩阵满足以下等式：两者俩和是行的排列。整个分解可以表示为在哪里P.也是通过增强而获得的行的排列和．

如果子矩阵足够小（例如，按顺序或更少），它可以非常有效地分解成和在单个节点上。如果子矩阵的子矩阵不够小，我们可以递归地将其划分为更小的子矩阵，如图4.．获得后和，元素和可以用以下两个公式计算: 我们可以计算使用和上述矩阵。随后，我们可以将其分解为和．

3. BSON框架的多变量多元回归模型

本节介绍的多元回归模型2.3.有一个缺点——他们只能计算一个KPI和NPs之间的关系。然而，存在许多kpi，例如从运营商角度包括运营成本、资本支出、QoS和容量的kpi，以及从用户角度包括无缝连接、服务成本、容量和延迟的kpi [4.］．这些是高层次的kpi;但是，也存在许多精确的技术kpi，如电池功率和电池覆盖率。为了揭示KPI和NPs之间的关系，我们必须对之前的多元回归模型中的每个KPI进行多次的多元回归模型计算。这个过程很不方便，而且需要很长时间。

同时，当NP值同时改变时，在KPI之间的冲突或交易关系并不容易。正如我们之前提到的那样，我们应该为每个KPI进行多次进行多元回归，以最终学习KPI之间的冲突或交叉关系。相比之下，所提出的多变量多元回归模型如图所示5.允许同时确定kpi和np之间的关系。

为了增强BSON的多元回归模型，我们提出了多元多元回归模型。多元多元回归表示如下[15.那16.]：它也可以表达为在哪里

元素Z.和y是NPs和kpi的值，参数估计为我们可以创建多元多元回归模型(）通过计算乘法和．数字5.显示计算四个步骤使用MapReduce，下面我们将详细描述每个步骤。

步骤1（集成）。每个消息的信息有限，如位置，时间，接收灵敏度，单元电源，移动电源，数据流量和移动状态。因此，我们同时集成了整个消息，以根据地图函数中的NPS确定KPI的值。然后，我们在减少函数中提取KPI的值和所有NP。步骤1中的MapReduce键值对以算法提出1．
在Map函数中，键是时间，值是每个NP和KPI的名称和值。当所有Map任务都完成时，按时间对键值对进行分组。因此，Reduce任务的输入包含相应的信息，并根据每个KPI(即，）在减少任务中。因此，我们可以同时获得每个KPI和NP的值作为减少任务的输出。
例如，如果我们每分钟取一个样本，持续1小时，我们可以得到60个样本。假设np和kpi的数量分别为30和10，则Z.和y是6030和60分别为10。因此，我们可以转换key(即，)，元素和减少功能中的元素行Z.和y和列的Z.和列的y，分别。

算法1（MapReduce键值对第1步）。⁡
地图功能 时间，（NP₁，NP.₁价值,NP₂，NP.₂价值、KPI₁、KPI₁价值，kpi.₂、KPI₂价值，Reduce函数 时间，（NP₁，NP.₁价值,NP₂，NP.₂价值、KPI₁、KPI₁价值，kpi.₂、KPI₂价值

第2步（计算和)．我们计算Z.和y使用步骤1中的结果。因为步骤1中的结果包括Z.和y矩阵，我们可以轻松计算Z.和y使用mapReduce。如部分所述2.4.，我们可以使用一个MapReduce步骤获取矩阵乘法[12.］．例如，如果我们计算矩阵乘法，P.=m那用于获取（是列数N)．因此,通过分叉的的元素，则可以计算在缩小功能同时。
在步骤2中的MapReduce键值对以算法呈现2．请注意,，要么是这些矩阵的名称，而不是整个矩阵。还要注意达到样本数(即时间)，达到NPS加上的NPS数量和达到kpi的数量。

算法2（MapReduce键值对第2步）。⁡
地图功能 为达到列的数量为达到行的数量要么为达到列的数量为达到行的数量Reduce函数 要么

第3步（计算)．要计算多变量多元回归，我们计算使用步骤2中的结果。然而，当矩阵的阶数较大时，用MapReduce计算矩阵的逆是很困难的。幸运的是，[14.]提出了一种利用MapReduce实现矩阵反演的方法。他们提出了一种利用MapReduce实现可伸缩矩阵反演的分块方法。块方法使并行计算分解。如果矩阵的顺序不是很大(≤10^3.），矩阵可以非常有效地分解成L.和你在单个节点上。如果矩阵的顺序不是很大，则用在一个节点中的分解变得容易。我们可以计算L.和你矩阵用下列公式求出分解算法[14.那17.]：

这样就很容易计算了使用下列公式[14.，上三角矩阵的逆()可以等效地计算。我们反转上三角矩阵，你，通过计算的倒数，为下三角矩阵(L.）：

步骤3的输出键值对在算法中给出3.．请注意,是该矩阵的名称，而不是整个矩阵。

算法3(步骤3的输出键值对)。

步骤4(计算)．我们计算使用步骤2和3中的结果。我们执行两个矩阵的乘法（即，和y使用MapReduce)。我们也可以使用一个MapReduce步骤来执行矩阵乘法，如步骤2 [12.］．

步骤4中的MapReduce键值对以算法提出4.．请注意,和（y）是这些矩阵的名称，也不是地图功能中的整个矩阵。在减少功能中，j 的元素繁殖的j 的元素y同样的关键的;然后添加所有的结果。结果是的元素．在Reduce函数中，请注意达到NPS加上的NPS数量和达到kpi的数量。

算法4（MapReduce键值对步骤4）。⁡
地图功能 的行数要么的行数Reduce函数

我们可以认识到估计参数（即，)将NPs从与KPI无关的NPs中分离出来。如果接近零,然后无关．此外，我们可以识别KPI之间是否存在相互矛盾的关系。例如，如果所有行元素的符号和为和是完全不同的，这些kpi是相互冲突的。否则，它们是一致的。

4.多元回归模型的时间复杂性

我们计算多变量多元回归模型的时间复杂性。可以获得多变量多元回归模型的结果作为产品和y．时间复杂度Z.是因为Z.是．时间的复杂性和y是那，和，如表所示1[18.那19.］．因此，多元多元回归模型的整个时间复杂度为当．


矩阵	输入订单	输出顺序	时间复杂性

我们可以使用像MapReduce这样的分布式编程来降低时间复杂度。让是时间的复杂性任务。假设不考虑网络瓶颈的理想情况为: 因此，时间的复杂性的任务是,如果时，我们可以得到几乎恒定或线性的时间复杂度，这表明所提出模型的时间复杂度与多元回归模型的时间复杂度相等[8.］．

5.实现MapReduce

我们使用Hadoop 2.7.1实施了我们的模型[20.那21.］．所有实验都是在我们的实验室集群中进行的，该集群有32台机器。每台机器有4个CPU核和24gb内存，其中每个CPU是Intel®Xeon®CPU X5650，频率为2.67 GHz。

在MapReduce中实现，需要几个阶段。这样，我们就有了如图所示的MapReduce作业管道6.．是一个MapReduce任务。计算需要三个阶段．

在，我们计算的乘积和Z.．在，我们计算L.和你矩阵使用(13.)．此外,在，我们很容易计算使用(14.)，以及上三角矩阵的逆()可以等效地计算。我们把上三角矩阵倒立，你，通过计算的倒数，为下三角矩阵(L.)．最后,在,我们计算作为…的产物和．

同时，需要计算y．从的输出和，我们可以计算估计参数(即）作为产品的产品和y．请参阅本节3.，步骤1阶段创建Z.和y．步骤2的礼物和．第3步提供和．最后，第4步提供了．

在本实现中，我们根据MapReduce作业的数量比较了执行时间，如图所示7.．我们使用了600400矩阵作为输入Z.和600100矩阵作为输入y．因此，估计参数的顺序（即，)是400100.在实际实验中，我们需要计算大量的矩阵。然而，在矩阵处于大阶数时需要多长时间计算云中的矩阵乘法。因此，我们减少了矩阵的顺序，并根据任务的数量来简单地比较执行时间。

数字7.显示计算每个阶段的执行时间(例如，)．在图中7.，执行时间那那，和然而，当减少任务的数量从10到20增加时是线性的。然而，当减少任务的数量从20到50增加时，后来逐渐减少，因为网络瓶颈，通信成本或额外的管理时间存在[22.那23.］．

在三个酒吧的左边在图7.，我们可以看到计算的执行时间在单个节点上。通过增加地图任务，可以观察到执行时间的减少。因此，如果我们想减少执行时间，我们需要并行使用分解。

最后一小节在图7.显示计算的执行时间使用并行分解，如本节所示2.5.．在单个节点（即，一个减少）上，此过程需要大约110秒以计算分解a 400400矩阵，求其逆L.和你而矩阵是并行的，我们分手了400400矩阵变成4个子矩阵，由到（每个矩阵的顺序为200200)，然后获取那那那那，和如本节所述2.5.．我们需要两个MapReduce阶段，并要求89秒计算结果与单个节点中的结果相同。

数字8.显示获得估计参数的总执行时间（即，)．通过增加任务的数量，减少了执行时间。如果我们可以通过在群集中构建其他机器来增加任务容量，我们可能能够快速计算比当前执行的速率更快的矩阵操作。此外，我们可以使用MapReduce轻松执行众多矩阵操作。

数字9.显示要计算的执行时间的比较和当我们使用多元回归和多元多元回归模型时。我们比较这两个模型的原因只是使用和就是它那，和这两种型号的产品的质量是一样的。在多元回归模型中，我们一次只考虑一个KPI。因此，顺序y矩阵为600.1.在多变量多元回归模型中，我们考虑100 KPI;因此，秩序y矩阵为600.100.鉴于矩阵乘法的复杂性，执行时间很可能是和在多元回归模型中比多变量多元回归模型中的速度快100倍。

在图中9.但是，执行时间和当订单y矩阵为600.1比时的速度快1.4倍左右y矩阵为600.100. MapReduce执行需要最短的时间，其中包括分叉映射，排序和合并减少的时间。因此，在这种情况下，多变量多元回归模型比多元回归模型更有效。

6.结论

在BSON中，最近的研究表明，使用机器学习工具和高斯过程回归模型的框架有助于SON更自动化的操作。这种方法有一些局限性。然而，尽管它确定了与KPI单独相关的NPs，但它不能根据NP值的变化告诉我们KPI的确切值。因此，我们提出了多元回归模型来方便地确定KPI和NPs之间的关系[8.］．然而，这些多元回归模型被发现有自己的缺点。如果我们想识别各种KPI和NPS之间的关系，我们必须多次计算多元回归模型。

为了消除这些限制，我们在本文中提出了多变量多元回归模型。这些模型将与之与KPI无关的NPS与相关的NPS分开，并允许我们立即确定各种KPI和NP之间的关系。如果接近零,然后无关．此外，我们可以识别是否有两个KPI（例如，和）如果所有行元素的迹象，则冲突和完全不同。

我们使用MapReduce实现了这些提出的模型。通过增加任务的数量，减少了执行时间。我们还通过实验表明，所提出的多变量多元回归模型比多元回归模型更有效，如图所示9.．当然，这种方法存在局限性，例如沟通成本。但是，使用诸如MapReduce的分布式编程，我们可以轻松地同时计算许多矩阵操作。我们还可以通过在集群中引入额外的机器来实现更快更频繁的计算。在我们未来的工作中，我们将使用移动无线网络中的真实大数据分析所提出的模型。

相互竞争的利益

提交人声明他们没有竞争利益。

致谢

本研究由韩国科学、信息和通信技术未来规划部(MSIP)、韩国信息和通信技术促进研究所(IITP) IT一致性创新计划(IITP-2015- r0346 -15-1008)和韩国科学、通信和通信技术未来规划部(MSIP) /IITP ICT研发计划(B0126-15-1017)资助。

参考文献

O. G. Aliu, A. Imran, M. A. Imran, B. Evans，《未来蜂窝网络中的自组织研究》，IEEE通信调查和教程，卷。15，不。1，pp。336-361,2013。查看在：出版商网站|谷歌学术搜索
S. Hamalainen，H. Sanneck和C. Sartori，LTE自组织网络(SON)， John & Wiley Sons, Ltd, New York, NY, USA, 2012。
N. Baldo, L. Giupponi, J. Mangues-Bafalluy，“大数据增强了自组织网络”第20届欧洲无线会议的诉讼程序（EW'14），第181-188页，2014年5月。查看在：谷歌学术搜索
A. Imran，A. Zoha和A. Abu-Dayya，“5G的挑战：如何赋予儿子拥有大数据来实现5G，”IEEE网络第28卷第2期6, pp. 27-33, 2014。查看在：出版商网站|谷歌学术搜索
E. J.Khatib，R. Barco，P. Munoz，I. D. La Bandera，以及Serrano，“具有大数据的移动网络中的自我修复”，“IEEE通讯杂志第54卷第5期1, pp. 114-120, 2016。查看在：出版商网站|谷歌学术搜索
E. J. Khatib, R. Barco, A. Gómez-Andrades, P. Muñoz，和I. Serrano，“LTE网络中模糊诊断系统的数据挖掘”，专家系统与应用，第42卷，第2期21, pp. 7549-7559, 2015。查看在：出版商网站|谷歌学术搜索
c·k·威廉姆斯和c·e·拉斯穆森，回归的高斯进程，MIT新闻，剑桥，大众，美国，1996。
Y. Shin，C.-B.Chae和S. Kim，“大数据赋予儿子框架的多元回归模型”普遍存在和未来网络第七届国际会议的诉讼程序（ICUFN'15），pp.982-984，IEEE，札幌，日本，2015年7月。查看在：出版商网站|谷歌学术搜索
O。F. Çelebi, E. Zeydan， Ö。F. Kurt等，“关于使用大数据加强网络覆盖分析”，刊于第20届国际电信会议(ICT’13)论文集，pp.1-5，卡萨布兰卡，摩洛哥，2013年5月。查看在：出版商网站|谷歌学术搜索
R. J.Freund，D. Mohr和W. J. Wilson，统计方法，elessvier /学术出版社，阿姆斯特丹，荷兰，第3版，2010年。
I. Witten和F. Eibe，数据挖掘:实用机器学习工具和技术摩根·考夫曼(Morgan Kaufmann)， 2005年。
A. Rajaraman和J. D. Ullman，海量数据集挖掘，剑桥大学出版社，英国剑桥，2011。
J. Dean和S. Ghemawat，《MapReduce:大型集群上的简化数据处理》，ACM的通信，卷。51，不。1，pp。107-113，2008。查看在：出版商网站|谷歌学术搜索
J. Xiang，H. Meng和A. Aboulnaga，“使用MapReduce的可扩展矩阵反演”第23届ACM高性能并行和分布式计算研讨会论文集(HPDC’14)，pp.177-190，ACM，温哥华，加拿大，2014年6月。查看在：出版商网站|谷歌学术搜索
j·p·史蒂文斯社会科学应用多元统计，routledge，2012。
M. Bilodeau和D. Brenner，多元统计理论，斯普林斯科学与商业媒体，2008年。查看在：Mathscinet.
J. Kiusalaas，Matlabr工程中的数值方法，剑桥大学出版社，2010年出版社。
D. Serre，矩阵，第216卷毕业数学课本，施普林格，纽约，纽约，美国，第二版，2010。查看在：出版商网站|Mathscinet.
S. Skiena，算法设计手册，施普林格科学+商业媒体，柏林，德国，1998。
Hadoop：MapReduce的开源实现，http://hadoop.apache.org．
V. K.Vavilapalli，A.C.Murthy，C. Douglas等，“Apache Hadoop Yarn：又是另一个资源谈判代表”云计算第四届年度研讨会的诉讼程序（SOCC'13）ACM, 2013年10月。查看在：出版商网站|谷歌学术搜索
A. D. Sarma，F. Afrati，S. Samogoglu，以及J. Ullman，“上下界限为地图减少计算的成本”，“VLDB基金会的会议记录，第6卷，第2期4, pp. 277-288, 2013。查看在：出版商网站|谷歌学术搜索
问：他，尚，F.庄和Z.Shi，“基于MapReduce的回归并行极限学习机”Neurocomputing，卷。102，pp。52-58,2013。查看在：出版商网站|谷歌学术搜索

移动信息系统