文摘

如今,城市多通道大数据都是免费向公众由于越来越多的城市,它起着至关重要的作用在许多领域,如交通、教育、医疗、和土地资源管理。成功完成扶贫工作可以大大提高人们的生活质量,保证社会的可持续发展。贫困是人类社会的一个严重挑战。具有重要意义我机器学习应用于不同类别的贫困家庭,进一步为扶贫提供了决策支持。传统的扶贫方法需要消耗大量的人力,物力,财力。density-based空间聚类的基础上应用程序与噪声(DBSCAN),本文设计了分层DBSCAN聚类算法来识别和分析在中国贫困家庭的类别。首先,该方法调整的动态邻域半径将数据空间划分为几个初始集群不同的密度。然后,邻居簇边界确定的和内心的距离不断和递归地聚合形成新的集群。分裂和聚合的概念的基础上,该方法可以识别集群的不同形式和有效处理噪声数据空间密度分布不平衡。实验表明,该方法具有理想的性能的聚类,确定共性和差异特征的贫困家庭合理。 In terms of the specific indicator “Accuracy,” the accuracy increases by 2.3% compared with other methods.

1。介绍

随着信息和通信技术的发展,全面多通道大数据的时代已经到来。城市最重要的重要的地方是大数据分布,诸如人口、经济、交通和景观(1- - - - - -3]。城市传统的数据收集方法获得的多通道大数据实地调查和问卷访谈等不能客观、准确地反映城市发展的现状和法律的居民的活动范围广泛的时间和空间。同时,获得城市操作信息有一个很大的延迟。多通道大数据可以弥补上述缺陷,深入描绘了城市物理空间和社会环境。这不仅提供了客观地理解城市系统的可能性和总结其发展规则,也为城市规划提供了重要的支持和相关研究,如扶贫工作和城市教育。

必须承认,城市规划基于城市多通道大数据为扶贫工作是一项非常有挑战性的工作。它可以改善城市环境、生活质量和智能城市系统(4,5]。由于短时间内,大量的任务目标扶贫在早期阶段,每个贫困对象的基本信息和贫困的原因是不够全面和准确,这需要进一步丰富和提高。可怜的对象管理机制并不是完美的。由于大量的贫困人口贫困的村庄和复杂的家庭状况,人的数量的盆地和回到贫困是在不断的变化6]。此外,在村级贫困对象的管理机制不够健全,所以缺乏变化的贫困人口贫困的村庄。

在本文中,我们专注于识别和分析的任务类别的贫困家庭在中国。消除贫困是国际社会面临的历史任务。随着人工智能(AI)技术的发展如机器学习和深入学习,越来越多的研究人员正努力开发和释放这些人工智能技术在减轻贫困的巨大潜力7]。中国作为最大的发展中国家在世界范围内,全球扶贫做出了重大贡献。在2013年,中国政府提出了扶贫目标的概念,旨在采取有针对性的措施来帮助贫困家庭和每一个真正从根本上消除各种因素导致贫困,从而实现可持续扶贫的目标(8]。政策的基础上,本文采用聚类算法(9)将在中国贫困家庭的数据合理,从而确定不同类别的贫困家庭支持扶贫措施的制定和实施。

Poverty-oriented科学研究依赖于贫困的分析数据。中国贫困人口普查数据通常来自由国家,社会,高校(10]。由于人口的广泛覆盖和教育水平的个体差异和心理学,受访者可能不回答问卷根据实际条件,导致问卷数据的主体性。另外,断层在数据输入和存储等过程可以很容易地导致数据异常值和缺失值。因为贫困人口普查获得的数据集的质量很难保证,他会给你带来一定的困难,聚类算法的设计与应用。

贫困数据集的聚类算法的设计应合理考虑缺失造成的噪音值和异常值。现在,常见的聚类方法主要包括partitional集群、层次聚类,和density-based集群(11]。k - means聚类算法实现集群通过分区,它赋予每个样品最接近集群根据样本之间的距离和原型,原型和更新集群内样本的平均值,然后重复上述步骤,直到迭代结束(12]。虽然方法简单、实用,集群的数量和初始原型需要预定义的。会凝聚的层次聚类(AHC)将每个样本作为一个单独的集群,然后合并两个最近的簇合并成一个新的集群不断(13]。AHC算法不需要预定义的原型和集群的层次结构,但它是在数据对噪声敏感。density-based空间聚类的应用程序与噪声(DBSCAN)算法是density-based聚类方法的代表,它定义了集群作为最大的一组density-connected样本和样本密度高的地区为集群,从而发现任意形状的簇(14]而hyperparameters 在DBSCAN算法,即。,附近的半径和最小数量的样品需要形成一个密集的地区,have a great influence on the result of clustering, and the method is not applicable to datasets with different density distribution. Many researchers improve DBSCAN in view of the existing problems in the algorithm and propose improved algorithms such as K-nearest neighbor DBSCAN (KNNDBSCAN), DVBSCAN, and varied density-based spatial clustering of applications with noise (VDBSCAN) [15- - - - - -18]。例如,Gaonkar和Sawant [19]画k-dist图基于每个样本及其k最近邻之间的距离,以确定多个值的邻域半径,然后发现集群不同密度下的每个值邻域半径。法希姆等人提出了一个增强的DBSCAN (EDBSCAN)算法,定义了密度变化的核心分和指定一个核心扩张点允许只有当它的密度变化是小于或等于阈值及其附近满足均匀性指数(20.]。的聚类方法,其他一些研究人员提出了许多先进的健壮的FCM聚类等方法(21),改进的量子聚类算法(22),和群体聚类算法23]。陈等人。24)提出了一种快速的大规模数据的聚类。秋儿et al。25]介绍了HDBSCAN聚类算法找到一个集群模式出现在单个细胞的共焦成像获得的钙激增。Znidi et al。26)引入了一个新方法发现公交车使用相关指数之间的一致性程度的电压夹角每一对公共汽车和使用应用程序的层次density-based空间聚类与噪声网络分割成岛屿。Parmar et al。27)提出了残余偏差密度聚类算法峰值命名REDPC更好地处理数据集包括各种数据分布模式。特别是REDPC采用残差计算测量当地的密度在附近地区。Parmar et al。28,29日]提出了可行的残余偏差密度聚类算法峰值与片段合并策略,在附近区域内局部密度测量的残余误差计算和由此产生的残余错误被用来产生残余碎片为集群的形成。总的来说,上述方法的局限性与高维数据聚类效率低且耗时。

考虑到集群在实际数据可能有不同的大小、形状和密度,伴随着一定的噪声和离群值,本文以最初的分工和分层聚合的概念来设计一个名叫分层DBSCAN聚类算法(HDBSCAN)。该方法包括两个阶段的分裂和聚合。我们的贡献如下:(1)首先,它使得一个基于样本数据集的初始划分密度;,该方法需要的邻居信息样本计算当地density-connected样本的密度值,然后搜索设置为每一个标记的核心点顺序根据密度值降序排列,形成初始集群。(2)然后,采用层次聚类的方法进行聚合的邻居集群。基于内部和边界之间的距离集群,集群被认为是最相似的邻居集群和合并形成新的集群,并重复这个过程,直到迭代结束。(3)基于分裂和聚合的方法,该方法可以识别集群数据集的不同形式。此外,噪声数据不能集成到高密度集群作为其密度相对稀疏,通过该方法可以合理地处理噪声数据。

本文的其余部分组织如下。部分2介绍了两种典型的聚类算法,即。,the DBSCAN clustering and the hierarchical clustering. Section3详细描述了该层次化DBSCAN算法。部分4讨论了该方法的聚类性能,然后应用到中国贫困数据集,并进一步分析聚类的结果。最后,结论提出了部分5

2。理论基础

2.1。的DBSCAN聚类

DBSCAN算法作为密度高的区域集群,那些稀疏的密度是噪音。它需要两个hyperparameters,即。,附近的半径 和最小数量的样品需要形成一个密集的地区

代表组成的数据集 样品和 属性, 表示th样本数据集。的 - - - - - -附近的 在哪里 表示样本之间的距离 ,计算了

如果 满足方程(3),它被称为核心观点:

DBSCAN算法有多种定义,列出如下:(1)一个示例 直接可以从 关于 如果 是一个核心样本 (2)一个示例 是可以从 关于 如果存在一个链的样品 ,其中每个 直接可以从 关于 (3)一个示例 是可以从 关于 如果存在一个链的样品 ,其中每个 直接可以从 关于

在聚类的过程中,该算法随机选择一个核心的点作为初始点和以其所有的核心问题 - - - - - -社区持续扩张。扩张结束直到找到最大的density-connected样本集,贴上一个集群。之后,算法随机选择其他标记核心点生成新的集群。聚类的过程完成当所有核心的点标记。

2.2。分层聚类

层次聚类可以分为凝聚的层次聚类和分裂的层次聚类。首先会凝聚的层次聚类需要每个样本作为一个单独的集群,然后找到最近的两个集群通过测量集群之间的距离,然后合并成一个新的集群。随后,该算法重新计算集群之间的距离和继续聚合过程。分裂的层次聚类的实现上面的正好相反,将整个数据集作为一个集群,然后迭代执行部门。

在层次聚类之间的距离 可以计算(4),即。,the average of sample distances between two clusters. Besides, the minimum distance of samples between clusters shown in (5),或集群之间的最大距离样本,也可以被衡量的距离两个集群:

2.3。分层DBSCAN算法

随着全球hyperparameters DBSCAN算法的数值 有一个直接影响所有的集群的扩张。图1说明了集群的发展在不同的数值 ,红色点表示的初始核心分在每个迭代中扩张。根据图1(一),集群 可以确定,而另一个样本被视为噪声,不能正常分区如果DBSCAN算法 邻域半径。从图可以看出1 (b)所有的样本分为一个集群 如果算法需要通过四个迭代的扩张 邻域半径。

针对上述问题,本文以分裂和聚合的方式设计HDBSCAN聚类算法。首先,该方法使一个数据集的初始划分根据样本密度。在每个集群的扩张,邻域半径自适应调整的方法基于邻居信息集群内的样品。然后,采用层次聚类的想法执行递归聚合;即与最小距离方法以集群对邻居的集群并将其合并到一个新的集群。基于分裂和聚合方法可以感知不同形式的集群数据空间。

2.4。最初的部门

在初始分裂的过程中,参数 用于计算当地的密度。让 代表组成的集合 样品最接近 ,和之间的平均距离 和所有样本集

的距离 可以捕捉周围的密度分布样本吗 值越小,密度越大。因此,当地的密度 可以被定义为

的邻域半径 ,也就是说, ,之间的距离是 - - - - - -最近的样本。最初的分裂的过程包括以下步骤。

步骤1。计算每个样本的局部密度然后样品基于当地的密度值,形成序列: 集群的标签是追杀

步骤2。选择一个未标记样本 从序列 并设置迭代次数

步骤3。 代表的样本集和核心点的序列 - - - - - -th集群的 - - - - - -th迭代和

步骤4。计算的自适应邻域半径扩大当前的集群,集群中的所有样本:

第5步。选择一个核心观点 从序列 为了继续扩大的基础上

步骤6。计算的邻居集样本根据会扩大

步骤7。更新 通过

步骤8。的扩张 - - - - - -th集群 如果完成 ,然后它返回到步骤9。否则,它集 并返回到步骤4

第9步。最初的部门如果所有的样本标记结束。否则,它设置集群标签 并返回到步骤2

2.5。聚合的邻居簇

摘要集群之间的相似性是衡量边界距离和内心的距离。图2以集群 在聚合为例来描述两种距离。在图2红点表示核心点和灰色的表示边界点分布到集群。

假设数据集可以表示为 在最初的部门, 表示数量的集群和 而邻居簇合并形成新的集群不断聚合过程中, 是所描述的 边界点的集合 在哪里 表示完成部门的邻域半径 价值变化动态邻居半径的自适应调整。根据图2(一个)之间的边界距离集群 之间的最小距离是两个集群的边界点,即

从图可以看出2 (b),集群 由四个初始集群,因此内部集群的距离被定义为

在聚合过程中,两个集群边界的最小距离是邻居簇进一步合并如果他们内在的差异距离和密度低于一定的局限性。算法1是一个简单的实现聚合的邻居集群。实际实现的算法、价值观等边境距离和内心的距离将会恢复,以避免重复计算。根据14日线算法1,两个集群将参与计算的邻居集群只有当他们的密度差,边界的距离,和内心的距离满足某些条件。

(1) 输入:集群初始划分后 ;阈值 ;
(2) 输出:最终集群后聚合
(3)
(4) 而真正的
(5) 计算 集群之间的平均密度差异
(6) 为每一个集群
(7) 为每一个集群
(8) 计算
(9) 计算 样品的平均密度的集群
(10)
(11)
(12)
(13)
(14) 如果
(15)
(16) 结束了
(17) 结束了
(18) 如果
(19)
(20) 其他的
(21) 打破
(22) 结束时

拟议中的HDBSCAN聚类算法可以捕获数据空间中具有不同形式的集群。聚合的邻居簇削弱hyperparameters的灵敏度算法的初始划分。此外,部门DBSCAN算法的结果取决于选择的初始序列的核心观点。该方法可以减弱造成的波动在一定程度上选择序列。该算法2总结了整个过程。

(1) 输入:参数 后,集群初始划分 ;阈值 ;
(2) 输出:最后一个集群
(3)
(4) 而真正的
(5) 计算当地的密度
(6) 选择一个未标记样本 从序列
(7)
(8) 计算自适应邻域半径
(9) 选择一个核心观点 从序列
(10) 计算的邻居集样本
(11)
(12) 的扩张 - - - - - -th集群 完成
(13) 结束了
(17) 结束了
(18) 计算 集群之间的平均密度差异
(19) 如果
(20)
(21) 结束了
(22) 结束了
(23) 如果
(24)
(25) 其他的
(26) 打破
(27) 结束时

3所示。实验结果和分析

3.1。实验设计
3.1.1。数据集

三个公共选择人工数据集和真实数据集的四个来验证提出的聚类算法的有效性。人工数据集表中列出的描述1。人工数据集的可视化图所示3

现实世界的数据表中列出的描述2钞票,帕金森,密码子使用情况,丙肝病毒,和计划放松来自UCI机器学习库,和CFPS2016是中国贫困家庭的数据集。CFPS2016数据集来自中国家庭小组研究(CFPSs)公布的北京大学社会科学研究所的调查,中国,2016年。在实验中,CFPS2016数据集包含14019个样本和320属性,涵盖家庭经济以及美国成人和儿童的健康,教育和心理学。因此,CFPS2016数据集可以客观地反映每个中国家庭的状态。在数据预处理,再我们填充缺失值与归责方法(30.),然后测量1778贫困家庭从14019年中国家庭将阿尔凯尔-福斯特方法基础上,多维贫困的主要测量方法(31日]。在这个实验中设置的参数一样的DBSCAN在同样的实验平台。

3.1.2。评价指标

我们把轮廓系数(SC) [32),Davies-Bouldin指数(DBI) (33),调整兰德索引(ARI)和归一化互信息(敝中断)34)来衡量聚类的性能。定义的轮廓系数 在哪里 表示样品的总数; 表示样本之间的平均距离 和其他所有样本的集群,这反映了集群的凝聚力;和 表示样本之间的平均距离最小值 所有样品在任何其他集群,这反映了集群的分散性。更大的SC代表了更高性能的聚类。此外,Davies-Bouldin指数的定义 在哪里 表示数量的集群; 表示所有的样品之间的平均距离在集群和集群的重心; 表示聚类质心之间的距离。较小的DBI表示集群的更高的性能。

关于性能,调整兰德指数(ARI)和归一化互信息(敝中断)也用于评估。阿里代表两个集群之间的相似性度量方法,调整的机会,与准确性,虽然敝中断约一聚类量化信息的数量,通过其他集群(即。两者之间的相互依赖)。在观察的情况下被确定为噪音,每个噪声观测都被视为一个独特的单例集群对阿里和敝中断。

3.1.3。比较的方法

本文比较了该方法与现有三个聚类算法描述如下:(1)AHC:节中描述2.2,该方法将每个样本作为一个单独的集群,然后合并两个最亲密的集群不断迭代,直到结束。(2)DBSCAN:节中描述2.1,每个集群的方法执行连续扩张基于核心分,从而以密度高的地区为集群和那些与低密度的声音。(3)EDBSCAN:该方法计算每个核心的密度变化点和指定的一个核心观点是允许扩大只有当它的密度变化低于指定的阈值及其附近满足均匀性指数(35]。(4)NS-DBSCAN: NS-DBSCAN算法策略类似于DBSCAN算法。此外,它提供了一种新的可视化技术密度分布和指示的内在集群结构(36]。(5)ADBSCAN:与其他算法,估计每个样品的密度使用不同种类的密度估计和基于阈值,然后选择核心样本ADBSCAN利用最近邻图的内在属性(37]。

4所示。结果和分析

4.1。UCI的人工数据集和真实数据集

首先,我们进行实验的影响 在本地敏感性如图4。然后,选中的 用于以下实验提供公平的比较。从图4,我们可以知道当 是0.5,当地的敏感性小。该方法的效果更好。因此,我们选择 = 0.5。

三个人工数据集的聚类结果基于该方法如图5,地区不同的颜色可以被视为一个集群。数据显示5(一个),5 (c),5 (e),数据集被切成几个区域具有不同密度在最初的部门。从数据可以看出5 (b),5 (d),5 (f)相邻地区,类似的密度总不断在邻居簇的聚集,导致理想的聚类的结果。在图5 (f),一些离散点分布在四大集群。该方法识别这些点的声音因为存在某些离散点的密度差异和集群。

的度量值三个UCI数据集得到的四种比较方法如表所示3,最优结果粗体和斜体的次优结果。

根据表2该方法获得的,所有的SC值HDBSCAN比那些通过其他方法,方法也有理想的DBI值。例如,在尊重帕金森的数据集,HDBSCAN是8.91%的SC价值高于AHC的理想方法。尽管HDBSCAN DBI的价值理想,比EDBSCAN的只有2.63%。上述结果表明,该方法HDBSCAN理想的聚类性能。表2显示了ARI性能与人工数据集上的不同的方法。从这些结果,HDBSCAN显示这些数据集的排名第一。更重要的是,在每种情况下HDBSCAN能够识别每个数据集的基础课程,而每一个其他方法不能在这项任务至少有一个案例。

4.2。在中国贫困家庭的数据集

我们执行集群1778贫困家庭CFPS2016识别不同类别的贫困家庭。表4显示了CFPS2016的度量值获得的四个方法相比,最优结果粗体和斜体的次优结果。表4还显示敝中断性能结果在同一组人工数据集和聚类方法。这里,HDBSCAN排名表现这些讨论对ARI是一样的。

我们也与其他三种方法精度比较。结果表中所示的平均值5

从表可以看出5SC的价值和获得的DBI HDBSCAN比通过其他方法相比。因此,该方法具有理想的性能CFPS2016数据集上的聚类。基于HDBSCAN聚类结果列在表中6

根据表6该方法CFPS2016分为集群和标识70噪音。此外,家庭的数量在不同的集群分布不均匀。例如,集群1中家庭的数量是382,而61年集群9和集群10和34岁的分别。评价聚类结果的合理性,我们采用随机森林算法在十集群计算属性的重要性,从而分析每个集群的特点。具体来说,基于HDBSCAN聚类生成的标签,我们以每个集群为正类和其他集群为负类构造多个二进制分类模型,从而挖掘重要属性在每个集群。

基于集群内的重要属性,下面列出了集群的特点1。(1)家庭没有16岁以下儿童。(2)家庭的年度净利润高于平均水平。(3)医疗费用支出的家庭更突出。集群9的特点如下:(1)家庭的成年人的平均年龄是76年。(2)几乎每一个家庭成员没有养老保险。此外,集群的特点如下:10(1)家庭的人均年收入是35,914元,高于平均水平的1.43倍。(2)半数以上的成员使用电脑。家庭的生活标准在集群10与其他集群相比是比较高的,和集群10占贫困家庭的一小部分。根据上述分析,对大多数家庭是贫困的原因和特点类似的数字家庭一些集群大而一些贫困家庭的特点明显不同于其他人,导致少量的家庭等集群的集群集群9和10所示。

6显示属性重要性的分布在每个集群,其中横坐标值显示的数量320属性和纵坐标值表明属性重要性;十个曲线代表属性重要性的分布在十集群。

从图可以看出6,属性重要性的分布由十曲线几乎与彼此不同。例如,最高的属性是一位第165维度空间的重要性在集群7属性表示家庭成员的教育阶段最后的调查。在集群是一位第218维度空间的8个属性表示税后年收入总额。现象表明,贫困家庭在不同类别的不同特点和贫困的原因。因此,该方法可以有效地识别贫困的相同点和不同点。最后,对所有的数据集,我们用不同的方法进行计算复杂度实验。结果如表所示7。因为该方法是分层DBSCAN算法基于邻居簇的初始分裂和聚合,高于传统DBSCAN的时间。然而,时间是低于其他新方法。

5。结论

本文设计了分层DBSCAN算法基于邻居的初始分裂和聚合集群。首先,该方法HDBSCAN采用自适应邻域半径感知不同密度的地区,从而使数据集的初始划分。然后,迭代聚合是邻居集群上执行根据边界和内心的距离。人工数据集和真实数据集的UCI实验表明HDBSCAN理想的聚类性能。此外,HDBSCAN分裂中国贫困家庭的数据集,即CFPS2016,到10集群,实验结果验证聚类结果的合理性。HDBSCAN的理想性能的主要原因在于以下两个方面。首先,自适应邻域半径有助于识别地区不同密度的数据空间密度分布不平衡。其次,聚合与类似的密度进一步合并邻居簇,这会削弱的影响的准确性上的初始分区有效聚类性能。然而,如果数据集的维数非常高,集群效应不是更好。在未来,将进行更多的研究CFPS2016数据集的聚类结果。 To be specific, we will study the characteristics of poverty-stricken households in each category so as to support the formulation and implementation of antipoverty measures. The advanced clustering technology will be applied in targeted poverty alleviation of the poverty counties in China.

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突有关的出版。