应用计算智能和软计算

PDF
应用计算智能和软计算/2021年/文章

研究文章|开放获取

体积 2021年 |文章的ID 5537902 | https://doi.org/10.1155/2021/5537902

Ibidun Christiana Obagbuwa Ademola p . Abidoye, 南非犯罪可视化、趋势分析、线性回归和预测使用机器学习技术”,应用计算智能和软计算, 卷。2021年, 文章的ID5537902, 14 页面, 2021年 https://doi.org/10.1155/2021/5537902

南非犯罪可视化、趋势分析、线性回归和预测使用机器学习技术

学术编辑器:Babak Daneshvar Rouyendegh (b . Erdebilli)
收到了 2021年2月25日
接受 2021年5月13日
发表 09年6月2021年

文摘

南非被列为最杀气腾腾的之一,在全球范围内暴力和危险的地方。然而,这两个元素,推动南非的犯罪等级率高的社会暴力和谋杀。这是商业内幕的报道,南非是地球上最前15名凶猛的国家之一。到1995年,南非被评为第二高的谋杀。然而,犯罪率减少了一些年,近年来突然再次上升。由于社会暴力和犯罪率在南非,外国投资者不再感兴趣的持续或创业的国家,因此,它的经济正在下降。南非政府正在寻找解决犯罪问题和赎回的国家形象的高犯罪率排名和提振投资者的信心。许多传统的数据分析方法在犯罪相关研究已经完成在南非,但机器学习方法没有充分考虑。警察局和许多其他机构处理犯罪持有大量的数据库,可以用来预测或分析犯罪事件在南非的省份。本研究工作旨在提供一个解决问题的办法,通过建立模型,该模型可以预测犯罪。 The machine learning approach shall be used to extract useful information from South Africa's nine provinces' crime data. A crime prediction system that can analyze and predict crime is proposed. To accomplish this, South Africa crime data on 27 crime categories were obtained from the popular data repository “Kaggle.” Diverse data analytics steps were applied to preprocess the datasets, and a machine learning algorithm (linear regression) was used to build a predictive model to analyze data and predict future crime. The appropriate authorities and security agencies in South Africa can have insight into the crime trends and alleviate them to encourage the foreign stakeholders to continue their businesses.

1。介绍

在南非犯罪率居高不下的原因与因素包括低水平的教育,酗酒、缺乏社会和职业技能,可怜的住房和生活条件,以及缺乏育儿技巧(1]。社会暴力犯罪和杀人犯罪正在增加的速度比其他任何在南非(2,3]。图表对犯罪统计的报告2020:你需要知道什么,2020年7月31日表示,南非的暴力犯罪不断增加(https://www.news24.com/news24/southafrica/news/infographics犯罪统计- 2020 -你- - - - - - -需要知道什么20200731)。根据南非年度犯罪报告,2019年,不同群体之间的斗争,涉及在特定的活动,比如taxi-related,非法采矿、政治动机,hostel-related暴力杀人在南非的主要原因是(4]。南非还遭受极端犯罪postapartheid二十年后。由乔治Otieno et al。如上所述,林德加德,homicide-like犯罪率高的典型农村人口南非,需要及时关注避免人员伤亡(5,6]。

显著增加犯罪在整个国家,它已成为必要分析犯罪数据减少犯罪率。这有助于警察,其他安全机构和公民采取必需的行动和瓦解犯罪更快。每年,巨大的数据是由警察和其他执法机构,并分析这些数据执行防止未来犯罪的决定是主要的问题。执行数据的分析将有助于识别的功能负责犯罪的增加和遏制犯罪的重要步骤。数据挖掘过程涉及到评估和研究大型数据如南非犯罪数据集在Kaggle7]。新从现有数据生成的信息可能是至关重要的预防犯罪的国家。新信息的提取将从现有的预测数据集。很多研究人员报道了应用机器学习算法的犯罪分析的文献。侯赛因等人利用监督学习技术(决策树和再)预测犯罪十二年的旧金山城市数据集(8]。Ramasubbareddy等人建立了一个犯罪使用决策树预测系统和朴素贝叶斯分类器(9]。金等人调查犯罪预测使用机器学习方法在温哥华。他们与再建立预测模型,提高了决策树(10]。Ahishakiye等人建立了一个犯罪检测原型模型使用决策树J48机器学习算法预测94.2528%的准确率,和系统有利于预测未来犯罪(11]。萨尔托和黑格调查基于实例的学习、回归、决策树的机器学习算法预测犯罪LSOA代码(底层超级输出方面:行政系统英国警方使用的区域)和反社会行为犯罪的频率。他们的实验结果表明,该决策树模型是三种模式中最有效的12]。在旧金山Isha犯罪调查分析和预测使用数据可以在旧金山警察局。预测模型与再建,多级逻辑回归、决策树,随机森林,和朴素贝叶斯的机器学习算法,该模型预测的犯罪类型将发生在各地的城市和发现应用程序在资源分配执法的智能城市(13]。Kumar等人再犯罪预测建模系统使用邻近的机器学习算法(14]。机器学习线性回归预测技术是非常有效的用于构建预测模型(15- - - - - -19]。

需要一个创新的系统和新的犯罪分析方法对保护南非社区从犯罪。通过使用数据挖掘方法如图1,几个模式显示,用来预测可能出现的犯罪数量在未来,因此,警察和安全机构可以有效地安全指导全国所有省份的社区。提出的线性回归预测模型是建立基于南非的犯罪数据(7]27犯罪类别见表1,人口数据20.,省面积(平方公里)中描述表2和密度计算在这个工作。


数量 类别

1 所有盗窃别处未提及
2 纵火
3 攻击意图造成严重的人身伤害
4 谋杀未遂
5 抢劫银行
6 盗窃在非住宅的前提
7 盗窃在居住场所
8 劫车
9 商业犯罪
10 常见的攻击
11 常见的抢劫
12 受酒精影响的状态下开车
13 与毒品有关的犯罪
14 非法拥有枪支和弹药
15 恶意破坏财产
16 谋杀
17 抢劫在非住宅房屋
18 抢劫在居住场所
19 抢劫现金运输
20. 抢劫和加重的情况下
21 性犯罪
22 性犯罪是警察行动的结果
23 入店行窃
24 Stock-theft
25 盗窃机动车和摩托车
26 或从机动车盗窃
27 卡车劫持


排名 区(公里2) 百分比

1 北开普 372889年 30.5
2 东开普 168966年 13.8
3 自由州 129825年 10.6
4 西开普 129462年 10.6
5 林波波河 125755年 10.2
6 西北 104882年 8.6
7 夸祖鲁-纳塔尔省 94361年 7.7
8 普马兰加 76495年 6.3
9 豪登省 18178年 1.5
南非 1220813 100.0

2。方法

跨行业标准过程数据挖掘(CRISP-DM)方法是考虑这项工作。CRISP-DM非常有效,适合数据挖掘项目。它被广泛用于数据挖掘研究的文献。CRISP-DM步骤如下所述,图中所示1

2.1。业务的理解

本研究旨在建立一个预测模型,可以分析现有南非犯罪数据,发现隐藏的模式,并生成有用的信息,可以沟通政府和/或安全机构做出及时的决定如何遏制犯罪。

2.2。数据的理解

从Kaggle获得南非犯罪数据存储库用于这项工作。现阶段开展的活动包括数据描述、数据探索和验证数据的质量。

2.3。数据准备

犯罪数据组织,使数据分析做好准备。数据选择、数据清理、数据结构和数据集成进行使用Python库Scikit-learn (sklearn)。一些属性在逗号分隔值(CSV)文件包含字符串值以及数值。

2.4。建模

这是一个非常重要的阶段的数据挖掘过程中机器学习算法应用于准备数据来分析数据,建立预测模型进行预测未来使用有用的信息来自数据的隐藏的模式。这一阶段的活动包括选择合适的建模技术,也就是说,适当的机器学习算法建立预测模型;生成测试设计测试模型的质量和有效性;建立一个模型和运行模型工具准备数据集来创建一个或多个模型;根据领域知识解释模型,成功标准,和所需的测试设计;并确保模型的准确性和通用性。

在执行某些因变量的线性回归y独立变量的集合x=x1、……xr,在那里r预测的数量,是一个线性关系yx在下列方程表示:

这个方程的回归方程 回归系数和吗 是随机误差(22]。线性回归计算回归系数的估计或预测权重,表示 他们估计回归函数定义为如下方程:

这个函数检测输入和输出的依赖关系。估计或预测的反应,f(x1),为每一个观察= 1,…,n,应该尽可能接近相应的实际响应y1。的差异yf(x所有的观察)= 1,…,n被称为残差。回归是确定最优权值,也就是说,相对应的权重最小的残差。得到最好的重量、残差平方和(SSR)的观察= 1,…,n:SSR = 是最小化22]。

在这项工作中,线性回归是一个机器学习算法被认为是用于构建犯罪预测模型。线性回归预测建模方法估计目标变量是连续的。技术工具用于实现线性回归模型在Python中使用Scikit学习模块。这是一个有效的数据挖掘工具建立在NumPy, SciPy, matplotlib Python模块。Sklearn线性回归Scikit允许研究之间的关系两个连续(定量)变量:一个变量,用X被称为predictor-population,密度,等等。其他变量用y被认为是打击犯罪的变量。一个线性回归直线的方程形式如下方程: 在哪里X预测变量和吗y是因变量。因此,分类器语法从而可以说明如下:

从sklearn。linear_model进口LinearRegression

进口statsmodels。api sm

regr = linear_model。LinearRegression ()

regr。fit (X,y)。

线性回归预测模型的效率评估错误平均的广场或偏差(即。估计量之间的差异,“特点”,据估计,“目标变量”)。实际反应的差异y,= 1,…,n,发生部分由于对预测指标的依赖x。然而,还有一个额外的输出的内在差异。确定系数表示R2显示了哪些数量的变化y可以描述的依赖吗x使用回归模型。更大的R2表明更好的适应和意味着模型可以更好地描述的差异与不同的输入输出。的值R2= 1对应SSR = 0,这是一个完美的适合自的值预测和实际完全适合对方的反应。

2.5。评价

模型满足项目目标的程度是评估在这个阶段。后评估模型,生成的模型,满足项目的目标。

2.6。部署

策略建立评价结果将决定在这个阶段包括最终报告。

3所示。实验结果和讨论

27犯罪类的可视化,犯罪的趋势,所有线性回归的结果提供了实现这一节。机器学习线性回归预测技术已广泛应用于构建预测模型的文献[15- - - - - -19]。使用方程(3),检测犯罪数据集的关系;趋势线,为未来的x值可以确定相应的y值。Python库的数据可视化用于可视化南非犯罪数据集2005 - 2016。图2描述了南非的犯罪和人口统计2005 - 2016;有一个人口率和犯罪率之间的相关性;人口越高,越高犯罪的数量。四个省(豪登省,夸祖鲁-纳塔尔西开普省,和东开普省)与高人口统计也有最多的罪行。图3说明了警察局的数量在每个9个省的南非和犯罪报道的数量,分别。之间没有相关性警察局的数量在一个省和犯罪的数量。例如,豪登省显示总犯罪率最高,但它没有最多的警察局如图3(一个)3 (b)。南非数据集考虑这项工作(7)27日犯罪分类如表所示1,图4说明了27个犯罪类别和犯罪的数量为每个类别。类别(所有盗窃没有提及其他地方,盗窃在居住场所,和攻击意图)造成严重的身体伤害的犯罪事件而最高类别(在途现金银行抢劫,抢劫,卡车劫持)有最少的犯罪事件(图4)。图5描述了在每个省总犯罪的趋势从2005年到2016年;豪登省的犯罪数量最高。前三crime-prone省份豪登省,西开普省,分别和夸祖鲁-纳塔尔。此外,用更少的犯罪三省北部的斗篷,林波波河,分别和西北(图5)。

27个犯罪的趋势类别每省2005 - 2016年是描绘在图6。一个明确说明的省份容易的任何给定图27类犯罪6;例如,豪登省23项犯罪的犯罪数量最高的27个;夸祖鲁-纳塔尔省的犯罪数量最高类别的谋杀和非法拥有枪支和弹药;股票类别的盗窃、夸祖鲁-纳塔尔和东开普省带头;与毒品有关的犯罪的范畴,西开普省的犯罪率最高。

数据可视化技术被称为云(图一词7)描述了犯罪的范畴。每个字的大小指定频率或重要性。观察各自的省份的最突出的犯罪类别如图7是简单和快速。

机器学习模型使用线性回归(与现有数据对犯罪、人口、面积、密度)来预测未来犯罪的发生。之间的多重共线性特性可以被Feature-Feature做相关分析。在线性回归中,输入变量不应共线,也就是说,互相依赖。在图所示的热图8描绘了一个总犯罪之间的正相关,人口,和密度。密度是每平方公里的人数。图8也显示了警察局的数量之间的正相关和总犯罪在一个省;这未必意味着警察局,犯罪,但这是一个迹象表明有更多的警察局处理更多的犯罪。然而,图8描绘了一个负相关(没有关系)省(区)的大小和数量的犯罪发生在一个省。图9进一步说明了这些与关联梯度的关系。

进行了一系列的实验和回归结果如图10。此外,未来犯罪在南非可以使用线性回归预测模型建立在这项工作。图11描述了样本预测输出。线性回归与一条直线的数据使用两个连续变量:预测变量和响应变量。一个线性回归直线方程的形式Y=一个+bX,在那里X解释变量和吗Y是因变量。

目标=一个+b(特性)。例如:

Crime_Number =一个+b(人口)。

Crime_Number =一个+b(密度)。

线性回归减少变量的平方和预测的线性近似。

从线性回归结果的说明图10,因为 人口密度的值很低,犯罪率人口密度密切相关R平方值= 0.847意味着84.7%所描述的犯罪率是人口的变化和密度特性。R平方是强度的估计之间的关系模型和响应变量是0(最差)和1之间(最好),R平方值为0.847的这个模型显示一个强有力的关系。F统计是统计intercept-only模型的测试,比较了适合与我们的模型;的 F统计0.00361小于0.005(显著水平)表明,我们的模型是一个非常好的人。Akaike信息标准(AIC)估计的相对信息丢失由给定模型;信息模型失去越少,质量越高的模型。因此,AIC越低越好。AIC和BIC(贝叶斯信息准则)值的232.5和233.1代表模型的质量好。实际犯罪率和预测犯罪率的情节都是线性的。因此,犯罪率预测实际犯罪率几乎是一样的,因此,工作正常(图的线性模型10)。综合/概率(综合)是一个测试的偏态和峰态残留特点。北京市(综合)如图10执行统计检验,表明残差的正态分布的概率。北京市(综合)值为0.002,接近于零表示数据的常态。斜对称是衡量数据和它的价值驱动器综合;在这里,小斜(1.545)表明剩余价值分配是正常的。然而,峰度是尖峰或曲率的测量数据;5.170的峰度值越高表明加强集群的残差为零,这意味着一个更好的模型和一些异常值。方差齐性Durbin-Watson测试的特点,必须在1和2之间的值;Durbin-Watson输出1.081表明,数据范围内。Jarque-Bera (JB) /概率(JB)就像综合测试测试偏度和峰度;北京市(JB)值0.0690,非常接近0.002的概率(综合)是一个综合测试(图的确认10)。总体结果图中描述10显示了线性回归模型是一种有效的模型来预测在南非犯罪率。它可以应用于预测犯罪的9个省。预测系统训练和犯罪数据需要输入(人口和密度)来预测犯罪发生(图11)。

4所示。结论

机器学习技术可以有效地检测出隐藏的犯罪数据中的模式是有价值的,给好可视化犯罪预测,从而为预防犯罪在南非提供支持。犯罪数据分析可以提取未知,从原始数据和重要信息,因此,协助政府加快解决犯罪的过程。它将使政府有关当局更好地理解犯罪的趋势和减轻对他们。当犯罪预防和环境是和平的,外国投资者乐于继续他们的业务在南非,因此经济增长持续。这项工作提出了一种预测模型训练和犯罪数据可以采取人口密度作为输入,预测的总犯罪的南非。这项工作应当寻求信息的扩展对犯罪从南非警察机关和其他因素建立一个预测模型考虑这些因素。

数据可用性

从Kaggle南非犯罪数据了,https://www.kaggle.com/slwessels/crime-statistics-for-south-africa

的利益冲突

作者宣称没有利益冲突。

作者的贡献

Ibidun Christiana Obagbuwa和Ademola p . Abidoye造成同样的手稿。Ibidun Christiana Obagbuwa导致一代的想法,设计,实现,文献综述和论文的写作。Ademola p Abidoye导致实现、文献综述和论文写作。

确认

作者想感谢Sol Plaatje大学这项研究的支持。此外,作者感谢Kaggle南非犯罪数据的可用性(2005 - 2016)和笔记本。

引用

  1. r . McCafferty和美国c行动,“谋杀在南非:过去和现在的比较,“基督教联合行动,24,2003页。视图:谷歌学术搜索
  2. 商业内幕南非,南非爬上成为世界上最凶残的国家之一,Business Insider南非,开普敦,南非,2019年,https://www.businessinsider.co.za/south -非洲-犯罪- 2019 - 11
  3. 统计南非,南非犯罪率为2018/19,https://citizen.co.za/news/south frica/crime/2178462/factsheet -南-非洲- - 2018 19/2019犯罪-统计数据
  4. 统计南非,南非2017/2018年度犯罪报告,2019年,RP号码:299/2018,ISBN号码:978-0-621-46552-5,犯罪注册。
  5. g . Otieno e . Marinda t . Barnighausen f .黝黑色,“高杀人在南非的一个农村人口(2000 - 2008):以人群为基础的队列研究的发现,“人口健康指标,13卷,不。1,p。20日,2015。视图:出版商的网站|谷歌学术搜索
  6. m . r .林德加德,在南非杀人,杀人的手册约翰·威利& Sons,新泽西,新泽西,美国,2017年第一版。
  7. 统计南非,南非犯罪统计数据,https://www.kaggle.com/slwessels/crime-statistics-for-south-africa。2020年12月访问。
  8. 侯赛因,a . Abtahee Kashem, m·m·霍克和i . h .袍,“犯罪预测使用时空数据,2020年,https://arxiv.org/abs/2003.09322视图:谷歌学术搜索
  9. s . Ramasubbareddy t . Aditya赛斯k .登顶,s . s .如果不是“犯罪预测系统”创新在计算机科学和工程h·赛,r . Sayal r . Buyya g . Aliseri, Eds。,卷。103,Springer, Singapore, 2020, Lecture Notes in Networks and Systems.视图:出版商的网站|谷歌学术搜索
  10. 美国金,p . Joshi, p . s . Kalsi p·塔,“犯罪分析通过机器学习,”学报2018年IEEE 9年信息技术、电子和移动通讯大会(IEMCON)加拿大,温哥华,公元前2018年11月。视图:出版商的网站|谷歌学术搜索
  11. e . Ahishakiye e . o . Omulo d . Taremwa i Niyonzima,“犯罪预测使用决策树分类算法(J48),“国际期刊的计算机和信息技术》第六卷,没有。3、2017年,ISSN: 2279 - 0764。视图:谷歌学术搜索
  12. g·萨尔托和m . Cocea”犯罪的一种探索使用数据挖掘在开放数据预测,“国际信息技术与决策》杂志上,16卷,不。5,1155 - 1181年,2017页。视图:出版商的网站|谷歌学术搜索
  13. p . Isha探索性数据分析和犯罪预测在旧金山、2018、642年硕士项目。https://scholarworks.sjsu.edu/etd_projects/642
  14. a·库马尔a Verma g . Shinde y Sukhdeve, n . Lal,“犯罪预测使用再相邻算法”学报2020年国际会议上新兴的趋势在信息技术和工程(Ic-ETITE),页1 - 4,Vellore,印度,2020年2月。视图:出版商的网站|谷歌学术搜索
  15. k . Sukhija s . n·辛格·m·库马尔,“使用线性回归研究参数与强奸犯罪在哈里亚纳邦”学报2020年10日国际会议上云计算,数据科学与工程(融合)诺伊达,页107 - 111年,印度,2020年1月。视图:出版商的网站|谷歌学术搜索
  16. j·j·冈萨雷斯和a . Leboulluec”犯罪预测和socio-demographic因素:机器学习回归算法的比较研究,“应用计算机科学和数学杂志》上,13卷,不。27日,2019年。视图:出版商的网站|谷歌学术搜索
  17. m·a·Awal j·拉比,s . i侯赛因和m·哈西姆”使用线性回归预测未来趋势在孟加拉国的犯罪,”《2016国际会议信息,电子、和视觉(ICIEV),页333 - 338,达卡,孟加拉国,2016年5月。视图:谷歌学术搜索
  18. p . Yerpude诉Gudur,“犯罪预测建模数据集使用数据挖掘,”国际期刊的数据挖掘和知识管理过程,7卷,不。4,43-58,2017页。视图:出版商的网站|谷歌学术搜索
  19. b . Cavadas、p·布兰科和佩雷拉,“犯罪预测使用回归和资源优化,”人工智能的进展葡萄牙有关人工智能的会议施普林格,页513 - 524年,可汗,瑞士,2015。视图:出版商的网站|谷歌学术搜索
  20. 统计南非,统计发布(P0318),一般的家庭调查,2018,http://www.statssa.gov.za/publications/P0318/P03182018.pdf
  21. 统计南非,在短暂的统计数据3卷,统计,南非比勒陀利亚,南非,2009年,978-0-621-38774-2http://www.statssa.gov.za/publications/StatsInBrief/StatsInBrief2009.pdf
  22. g .詹姆斯d·威滕、t . Hastie和r . Tibshirani介绍R统计学习与应用程序激飞纽约海德堡多德雷赫特伦敦,美国国会图书馆控制编号:2013936251©Springer科学+商业媒体纽约,2013年,2017印刷(纠正)。

版权©2021 Ibidun Christiana Obagbuwa Ademola p . Abidoye。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点1432年
下载732年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读