阿拉伯语Twitter用户的分类:一项研究基于用户行为和利益

文摘

今天,社交网络是最受欢迎的互动媒体由于其简单性和能力打破社会规则的障碍,他们的速度和,因为工作环境压力的增加,使人们更难访问或打电话给朋友。有许多社交网络产品广泛用于社会交往。线程数据的数量正在增长,生产分析从这大量的通信变得越来越困难的公共和私人组织。这个工作的一个重要的应用是确定依赖于确定的趋势在社交网络社区成员之间的关系。这不是一个轻松的任务,因为它有许多挑战。信息共享的社会成员之间没有一个正式的数据结构,但传播形式的文本,表情符号,和多媒体。解决这方面的灵感是如果一个公司是广告运动产品,例如,它有一个难以识别目标样本的阿拉伯人在社交网络上对体育很感兴趣。为了实现这个目标,本研究采用实验的方法。这家公司的目标是发现用户与其他用户互动有相同的利益,所以他们可以接收相同类型的信息或广告。这些信息将帮助公司决定如何开发广告基于阿拉伯人民的利益。 Examples of such work include the timely advertisement of the utilities that can be effectively marketed to increase the audience; for example, on the weekend days, the effective market approaches can yield considerable results in terms of increasing the sales and profits. In addition, finding an efficient way to recommend friends to a user based on interest similarity, celebrity degree, and online behaviour is of interest to social networks themselves. This problem is explored to establish and apply an efficient and easy way to classify a social network of Arab users based on their interests using available types of information, whether textual or nontextual, and to try to increase the accuracy of interest classification. Since most of the social networking is done from the mobiles nowadays, the efficient and reliable algorithm can help in developing a robust app that can perform the tweet classification on mobile phones.

1。介绍

这个项目的动力源于需要分类用户在社交网络上的有效方法,确定每个用户的兴趣相似度的基础上这些利益和发现用户之间的关系。像Twitter这样的社交网络的用户发现很难确信建议朋友没有看到如果他们有相同的利益。同样在组织层面:社会网络需要能够识别有效用户组与它们进行交互,比如定向广告的产品。分类的主要数据,可以分析用户的文字和文章,但执行内容简短分析文本是更加困难比长文本。

Twitter是全球最大的社交网络之一,它有优秀的共享信息和资源营销,也越来越多地用于实时互动讨论,新闻,和建议1- - - - - -4]。除了其他用法,Twitter的阿拉伯语很好代表;大约有400万的活跃阿拉伯语用户在Twitter上的2012年底(5]。大约有22个阿拉伯国家和数以百万计的人懂得阿拉伯语,因为它是神圣的可兰经的语言。尽管广泛的研究,但我们找不到大量工作为阿拉伯语分类用户发表的基于他们的利益。在社交网络环境中,特别是微博,我们遇到了一些挑战,当我们试图将用户分类6]。配置文件通常被忽略,因为大多数用户并不关心他们的配置文件或人们插入不正确的信息7- - - - - -9]。Thelwall et al。10,11)指出,人们的词汇变化对社交网络,因为他们可能以不同的方式写不同的单词。微博使用不同的语言,每种语言,有不同的写作方式(10]。文本长度限制的主要挑战之一,因为只允许140个字符的tweet (12,13]。附加的链接是一个挑战,因为大多数微博今天包括HTML链接;这同样适用于标签和符号。非正式的语言也是一个挑战,因为它可能包括缩写和符号(14- - - - - -16]。最后,因为我们没有找到相关工作在阿拉伯语的分类用户在社交网络上,有一个知识挑战这项研究开始的。

问题被解决在这项研究中认为的线程数据量增长和生产分析从这大量的通信变得越来越困难的公共和私人组织。这个工作的一个重要的应用是确定依赖于确定的趋势在社交网络社区成员之间的关系。这不是一个轻松的任务,因为它有许多挑战。信息共享的社会成员之间没有一个正式的数据结构,但传播形式的文本,表情符号,和多媒体。解决这方面的灵感是如果一个公司是广告运动产品,例如,它有一个难以识别目标样本的阿拉伯人在社交网络上对体育很感兴趣。为了实现这个目标,本研究采用实验的方法。这家公司的目标是发现用户与其他用户互动有相同的利益,所以他们可以接收相同类型的信息或广告。这些信息将帮助公司决定如何开发广告基于阿拉伯人民的利益。此外,找到一个有效的方式向用户推荐朋友基于兴趣相似性,名人学历,社交网络和在线行为是感兴趣的。这个问题是探索建立并应用一个有效和简单的方法来分类阿拉伯的社交网络用户根据他们的兴趣使用可用的类型的信息,无论是文本或nontextual,并试图增加兴趣分类的准确性。

这个研究提供了潜在的好处为针对广告公司给一个好的指导样品的人以及研究人们的偏好和趋势。公司可以使用这条指导原则来评估他们的战略计划,以及基于利益鼓励潜在用户跟随他们。最后,这里的主要贡献是新奇的阿拉伯语,并没有被认为是。此外,我们尝试在这个工作建立主要参考其他语言。部分2本文论述了社会采矿过程和部分3地址阿拉伯语过程方法。现有的文献提出了部分4本文提供了逻辑理由进行这项研究。分类算法进行的讨论部分5而实验和评价部分进行6。部分7讨论了本研究的结果和发现。

2。Twitter用户的分类

社会挖掘是数据挖掘的一个子集,它是研究在计算机科学学科(数据库、数据分析、统计、数据结构、人工智能和机器学习)。数据挖掘的目标是处理从数据图中提到的知识1。

从图1,我们可以分类数据挖掘活动如下:(我)文本挖掘:文本数据(结构化或非结构化)。(2)Web挖掘:原始数据包括Web内容、链接和日志文件。(3)媒体挖掘:原始数据图像、视频和语音。(iv)社会矿业:这是本研究的重点。它包括从流中提取趋势模式的tweet或者帖子Twitter或Facebook之类的社交网络。社交媒体数据庞大,嘈杂的、非结构化的和动态的性质。(v)时间序列或“生物信息学”:这包括识别DNA序列。结构化和非结构化形式的数据和多媒体需要合适的算法分析和提取有用的信息从他们通过数据挖掘和知识发现17,18]。文本挖掘是一个简单的过程,从文本中提取知识。在这个研究中,我们需要文本挖掘算法作为我们建议的解决方案的一部分的用户兴趣分类(19,20.]。这个分类是基于文本的微博用户。微博的内容是很重要的在定义用户的利益。分类过程包括以下情绪分析活动:(1)搜索信息访问。(2)监控社交媒体。(3)集团文件和网页。(4)分类新闻,故事,基于内容的网页。(5)归类邮件和新闻。(6)安排的数据库document-related元查询。(7)让行为之间的交互信息的人、位置和/或公司。(8)检查数据库实体之间的关联。当有多个文档分类分为四类,例如,经济,体育,科学,和生活方式,有两种文本挖掘的方法。一般来说,我们可以说分类算法可以分为两种主要类型如下。

2.1。基于规则的方法

这是基于一些规则应用到数据实体内部数据,如关联规则,适用于结构化数据在数据库或数据仓库的分类。一个非常著名的例子是“项目集”的问题在一些产品的超市购买经常与他人;从这个关系有发现知识,所以一定要安排这两个产品的位置。

2.2。基于机器学习的方法

基于机器学习方法使用一组示例的历史记录分为会话(训练数据),以防止一个算法学习以前的知识,例如,如果有一个老客户数据库。从这个数据库,我们可以教我们的分类器来检测通常年龄为客户预测样本是否有一个特定的人可能的客户。然而,文本挖掘的过程并不容易,因为它有许多挑战,如以下:(我)信息通常并不是在一个结构化的文本形式。(2)数据库引擎需要更多的处理能力来处理大量的文本数据。(3)必须选择一个方法来确定所有可能的感官的语言类型的词。(iv)在文本中,有复杂的概念之间的关系。(v)词歧义和语境敏感性产生挑战。(vi)有多个单词的含义相同:汽车= =车辆=丰田车。(七)很难确定一个品牌从名词像橙色(公司)或橙色(水果)。(我)嘈杂的数据,例如,拼写错误,使数据更难以解释。文本文件一般是半结构式;他们需要很多的努力去阻止的话和有意义的文本。主要有三个主要类型的文本挖掘分类:文档分类、文档聚类和基于关键字的关联规则。文本分类技术有很多,但是最著名的包括以下:(我)支持向量机算法。(2) 最近邻居算法。(3)神经网络算法。(iv)决策树算法。(v)关联规则的算法。(vi)增强算法。(七)朴素贝叶斯分类器的算法。作为一个例子,在贝叶斯分类算法,建立一个文本分类器是基于概率模型和底层词特征在不同的类。这个概念包括使相关文件文本分类概率不同的类单词存在类和相似的文本(1]。

3所示。阿拉伯语语言处理

阿拉伯语的特点是没有可复制的基于根喜欢英语,这就增加了挑战。需要返回到根词完成自动化过程用阿拉伯语。此外,每个词有多种方言和倍数。有大量的字母在阿拉伯语,和所有36个字符影响意义。最突出的阿拉伯语与英语相比的特点如下:(我)阿拉伯语字母形式取决于字母之前,之后,或者都可以被孤立。(2)储蓄和编码数据是复杂的。(3)处理不同于西方语言写作时。(iv)写作方向从右到左。(v)手术和书面语言之间的关系是不同的。(vi)阿拉伯语字符模板的详细。(七)言语可以包含一个以上的音节。(八)字母用阿拉伯语单词互相联系。(第九)阿拉伯语写作必须的一个参考。(x)在阿拉伯语派生从根()这个词的起源,和根由一系列的三个字母或四。(十一)用阿拉伯语的元音是关键。(十二)私人的存在替代品在阿拉伯语中是独一无二的。阿拉伯语是不同于英语在许多方面,所以在处理,我们需要考虑到抽梗机结果不同于挖土机结果对于同一个词用阿拉伯语,有时候这可能改变的意思。例如,“写”一词在阿拉伯语“يكتبون”给出不同的结果在阿拉伯挖土机但不抽梗机。

本研究旨在探索一种分类阿拉伯语用户在社交网络通过研究推特用户的属性以及它们如何相互作用,通过确定准确的因素分类。Kumar et al。21,22)已经讨论了一些最近的研究在Twitter域和给一个Twitter数据分析技术而博伦et al。21提出了一个现代分析技术。博伊德等。23)展示了如何区分用户只关注他们的活动和忽略的内容给用户配置文件交换消息。一个案例研究24)关注英国2010年大选决定“你支持谁”微博的内容。吴et al。25)看着分类18大类Twitter上的热门话题。地震在日本也是一个良好的Twitter应用程序数据分析(26];本研究认为每一个Twitter用户作为传感器,应用卡尔曼滤波和粒子滤波,广泛用于位置估计的无处不在/普适计算。一个实证研究由Benhardus Kalita [27]决定对话的参与者转发活动的分析,绘制出转发会话练习。

此外,性别可以被识别的文本分类模式,可观察到的工作Thelwall et al。28- - - - - -30.]。本文调查统计模型来确定uncharacterised Twitter用户的性别。的工作(31日),”在Twitter上谁对谁说什么了”,发现50%的url生成消耗仅以20000精英用户和内还发现了明显的同质性类:名人听名人,而博客(32,33)听博客,等等。这项研究指出,由不同的用户类别不同的新闻关注的话题。工作发现了五个不同类别的Twitter用户转发活动:自动/机器人活动,有新闻价值的信息传播,广告,促销,活动,和寄生广告。科诺菲尔等人认为,这一趋势可以从流从Twitter微博发现通过访问Twitter API (34]。Tinati等人已经确定,通过短信和微博的行为,推文的区位来源和主位置的Twitter用户可以找到(35]。

Lim和达塔36)的争论者的Twitter用户自动分类器建立基于三种不同类型的用户,组织记者/博客,和个人,科利尔et al。10,37,38)描述一个健壮的机器学习框架,用于大规模分类的用户根据感兴趣的维度,包括民主党人,共和党人,和星巴克爱好者。Rao et al。39]调查政治分化在Twitter上在2010年在美国。Althubaity et al。40]分析对话围绕特定主题和识别关键球员在Twitter对话得到沟通者的角色。的工作(41)分类的名人实时Twitter用户通过使用维基百科。

比较了支持向量机(SVM)和朴素贝叶斯分类(NB)在症候群的Twitter信息分类(42];本研究发现,SVM比NB四6综合征的分类。NB的分类方案发现更好的是那些对这项研究非常重要。在这种背景下,Twitter用户属性的检测工作的解决Zubi [43),这是一个探索研究用户的属性检测在Twitter使用简单等特性克模型。简单的社会语言学功能,如表情符号的存在,统计用户的即时网络粉丝的数量和朋友,和沟通行为像转发频率也提出了在模型中。

阿拉伯语的文本分类,有些工作文档分类。一个沙特阿拉伯的例子KACST介绍和初步结果概述呼吁阿拉伯文本分类(44]。还有阿拉伯语文档的自动分类基于NB算法(45]介绍了朴素贝叶斯方法,基于卡方归类阿拉伯语数据。的工作(32,33)使用web内容为阿拉伯语的文本挖掘技术的分类。其中一些类似于目前的研究工作,但不是在阿拉伯语和不专注于感兴趣的分类,如的工作32,33),”Twitter用户基于以下分类关系。“的工作45)是我们工作最相关,但不是关于阿拉伯语。

的工作(32,33]介绍了一种基于自然语言处理(NLP), Twitter用户的分类方法来解决如何发现新的Twitter账户。已有多种方法被用来解决这个问题,包括NB、语言模型、决策树,MaxEnt模型。的工作(45提供Twitter相关过滤通过联合贝叶斯分类器的用户聚类。整理分类器的总体精度约为75 - 85%的平均结果基于所有25个用户。一个简单的NB NLTK自然语言处理包的分类器达到约70%的准确率。这个工作在工具箱实现的优势在于比较性质的分类器,加强分类通过引入额外的信息为每个用户的基本贝叶斯分类器。的工作(32,33)使用Twitter用户分类的机器学习方法通过利用可观察到的信息,比如用户行为,网络结构,语言用户的Twitter提要的内容。这表明丰富的语言特征是持续有价值的跨三个任务,显示了巨大的希望进一步的用户分类。

5。分类算法

图的流程图2显示了该算法。该算法首先询问哪些用户分类。然后,该算法要求一次性访问Twitter API和下载所有请求的用户的时间表。为每个用户下载一个tweet,并检查是否推是最后一个,如果没有,它会询问另一个tweet。

算法清洗每个tweet通过删除符号、标签、停止的话,流。由于短的文本分类的困难,它收集的所有清洁推为每个用户在一个文档,使其容易分类最新和最有效的文本分类算法,像NB或SVM分类器算法。该算法由一个现成的训练数据集的语言,而结果为每个用户存储算法的一个合适的表在数据库中。由于微博非结构化数据,有必要重要的结果转换成规范化的数据库,可以用作数据仓库。

因为22%的tweet包括一个URL (11),分类器的效率是增加了添加更多数据以外的tweet。该算法检查每个tweet tweet-pure文本的类型或者包括HTML链接。大多数微博使用外部链接,但问题是,这些微博使用服务,如微小的URL,因为限制的长度。如果一个tweet包含HTML链接,然后处理会得到长URL的链接,取其元数据,并将其添加到文档分组所有tweet。该算法使用这些利益:政治,经济,体育,生活方式,和宗教。从任何报纸在互联网上,你可以看到新闻的主要类别匹配我们的五个主要利益。

该算法分类器和一个行为分类器也有一个概要文件。这些都是用于用户信息给nontextual分类。从这两个分类器,我们可以得到重要的类的用户和增加我们的分类器的效率。生物,如果激活用户,了解用户的角色。分类的另一个因素是概要文件字段,像追随者的数量,表示如果用户是一个名人。这可以由以下方程(3]: 该算法检查用户已经在维基百科的页面。这个特性在详细解释(21]。算法组相似的用户一起通过计算每个用户的相似度结果。从上面,我们可以归类的分类基于三种类型的标准:(我)文本分类。收集每个用户的所有微博和清洁他们额外的标签和链接,这样他们就可以被认为是纯文本消息。(2)档案分类。分类基于配置文件属性如年龄、位置和传记。(3)行为分类。分类基于用户的点击行为。例如,微博在午夜可能表明一个更年轻的用户。如果用户没有活跃的,因为他们创造了账户,这可能不是一个个人账户。经验证据是需要找到百分比为每个方法并确定最重要的方法。NB算法使用阿拉伯语为主要分类器在这个研究中提到的工作(24- - - - - -27]。我们将解释的利用率和应用该算法在我们的工作。这个分类器是基于统计模型,方程使用在哪里类,例如,运动(رياضة)。是一个收集的文本。分类的概率是推特吗在课堂上。清洗后的微博的话,阻止和文本处理所有步骤。找到这个词的概率是在课堂上。类的概率是。

详细看阿拉伯语这个分类器是如何工作的,下面是一个例子。

=“الدوريالسعوديلكرةالقدماليوم,”这意味着“今天沙特足球联赛”: 以这种方式计算所得: 以这种方式继续,直到我们得到的概率分类每个类的微博,从我们获得最大的。因此,训练朴素贝叶斯模型的主要步骤包括以下:(我)收集每个类的文本。(2)预处理文本通过清理,删除停用词,阻止。(3)计算的基本概率通过使用上述关键词的频率方程。(iv)数据库中的结果保存为训练集。采用这种方法,我们能够立即任何文本进行分类,得到类的概率。这些步骤之后,我们需要最近的类使用每个类的相似度计算方法来确定主类通过使用这个方程: 这是用户之间的相似性和用户。我们应用上述分类方法分类所有的微博。然后,计算每个类的每个tweet的百分比。例如,(我)27%的运动“رياضة”(2)25%对政治“سياسة”(3)为他人0%。因此,每个用户的利益由向量表示;向量中的每一项代表的比例感兴趣的用户在一个特定的类;例如,(我) ,(2) ,在哪里第一个用户的利益和吗是第二个用户的利益。项目在每个向量是某个类的兴趣,所以我们计算使用的相似之处最终结果是在0和1之间的数字,其中0表示没有相似性,1表示完全相同的兴趣。结果清晰的百分比。

6。评价和实验

我们收集了许多相关文献等新闻网站的每个主题http://www.kooora.com/对于体育运动,http://skynewsarabia.com/对政治、https://www.aliqtisadi.com/对于经济,http://www.ahadith.net/对于宗教,等等。我们使用的1500篇文章进行测试,结果在表1。


	条目的数量	正确的	错误的	精度(%)

体育运动	300年	296年	4	98.7%
技术	300年	274年	26	91.3%
宗教	300年	277年	23	92.3%
经济	300年	273年	27	91.0%
政治	300年	296年	4	98.7%
所有	1500年	1416年	84年	94.4%

文本分类的结果文档的tweet的分类器必须是不同的:实验的方法来收集语料的测试数据是基于非常有名的Twitter用户在阿拉伯国家与不同的利益,通过这些用户分类器,并比较结果可以知道那些影响用户。评估系统,我们收集了一些数据从一个真实的影响力在Twitter社交网络,然后我们使用分类器检查的准确性。对于每个感兴趣,我们有十个用户,语料库的数据如表所示2。


数量	政治的用户	宗教的用户	经济的用户	运动的用户	技术用户

1	kasimf	Abdulaziztarefe	Alwaleed_Talal	faisalbinturki1	MeetTechnology
2	anwarmalek	NabilAlawadhy	AbAmri	alnassr_news	Applewd
3	Yzaatreh	al_rasekhoon	cnnarabic	Altemyat	Technya
4	RecepT_Erdogan	SalehAlmaghamsi	Reuters_Busines	mustafa_agha	SafaTeqnia
5	巴拉迪	mishari_alafasy	Hamzaalsalem	SamiAlJaber	Arabapps
6	Adeeb_Emad	mohamadalarefe	Alhayat_Bus	nawafbinfaisal	NokiaKSA
7	IsmailHaniyyeh	afaaa73	essamz	battalalgoos	Android_arab
8	AzmiBishara	Saudalshureem	aleqt_fb	Alhilal_FC	alwagait
9	SafaNews	Shugairi	dubaiFinancials	k_alshenaif	COEIA_KSU
10	almilanyq84ever	Abuabdelelah	SkyNewsArabiaBs	waleedalfarraj	3 bdullla
11	Politic_affairs	Shaikh_alQattan	aleqtisadiah	AlArabiya_spt	techwd
12	amremoussa	Asowayan	qunaibet	ActionYaDawry	saudigamer
13	alhayatdaily	BenJebreen	Agary4u	Almoj_alazra8	RayzCo
14	LebPolitician	MaherAlMueaqly	CNBCArabia	realmadridarab	GoogleArabia
15	AJArabic	Hwsh1434	RashidALFowzan	BarcelonaAR	estidafaty
16	Elssisy	Khalid_aljulyel	tfrabiah	ryadda	mSaudiCommunity
17	SkyNewsArabia_B	ala7adeth	SaudiMCI	ESN_EgySports	IntelGet
18	iranianaffairs	NfaeesAlelm	Riy_Econ	sadaalmalaeb	Tiqaniat
19	JKhashoggi	BINTIMIAH	MubasherSA	ReutersSport	iPhoneIslam
20.	Ahmadmuaffaq	islamdor	BorsahNews	CityArabia	akhbar_tech

对于每个类,我们收集了20个活跃的Twitter用户平均4000的微博用户和访问Twitter API使用我们自己的应用程序流的tweet和每个用户的概要信息。这些都是作为一个文本文件存储在我们的系统。通过运行下面的分类器方程,结果得到: 通常,当我们谈论个人,100%利率匹配,我们有五个利益,类我用于正常化的结果。所以主类的值将被乘以2。这是因为如果类有超过50%的其他类将没有比例最高的,所以我们需要将结果乘以2,并为每个结果超过50%我们将设置为50%: 计算如下: 所以分类的准确性将平均的准确性五类:

7所示。发现和结果

这项工作的主要问题解决阿拉伯社交网络用户分类。本研究提出了一种新型的自动建议机制社交网络用户基于三个标准:文章(微博),名人学位,和微博行为(微博)。这个模型依赖于这三个方面,并可能帮助社交网络公司或用户自己确定合适的朋友从数百万用户的社交网络。

图3编译使用数据表3。在图3注意,趋势线函数,把最喜欢的用户是基于三个因素。球的大小是一个类的感兴趣程度(百分比),宗教,例如,另一个轴向名人程度和推特的行为。最后,它可以确定,有两个主要因素,我们需要考虑提高文本分类的社交网络:性能和精度。这些讨论如下。


(兴趣)	(名人)	(行为)

24	500000年	62年
22	600000年	81年
10	150000年	22
20.	680000年	25
20.	95000年	30.
24	250000年	36
5	550000年	52
24	122000年	78年
22	200000年	62年
20.	250000年	35
20.	500000年	90年
6	600000年	70年
5	550000年	80年
10	90000年	86年
4	400000年	97年
3	165000年	76年
20.	90000年	73年
24	880000年	62年
2	900000年	23
9	100000年	83年
24	500000年	62年
22	600000年	81年
10	150000年	22

7.1。性能

加速由于parallelisation非常重要,因为在这一领域的大多数作品使用连续版本的算法,但是一些顺序算法不能适应并行版本。一些算法更好地工作在并行版本但其他算法有更好的表现在一个连续的版本。因此,这一事实也需要考虑。得到一个病毒签名(文本文件的结构和流),任务是访问文本文件的内容,把所有的话说,阻止他们,并使用一个NLP过程,这可能需要很长时间。它被发现是充分寻找文件的签名使用一个简单的和可用的函数,就像一个散列,仅提供一个数值。我们只需要运行这些值之间的相似度检查检测类。

7.2。精度

文件的内容可能与其他类不确定我们的分类器类,它降低了精度。例如,假设我们确定体育有关政治的90%和10%。这个标识是只知道单词的分类器。解决方案是使用模糊逻辑算法在未知的令牌和计算tweet是否应该搬到别人。另外,集群算法,下列方程可以应用: 此外,还有消极的前缀的问题,如“不运动,所以需要语义和情感分析由于后缀和前缀标记可能会改变任何标记的意义。

8。结论和未来的工作

本研究工作受益于一体的统计科学,人工智能,数据挖掘,并试图提供精确的算法。这项工作的重点是设计和构建一个阿拉伯的Twitter用户的高度准确的分类。建议用户分类器可以帮助社会科学家,老师,公司和政府对社交网络的用户进行分类或在学习实验。文本的监督方法使用配置文件属性对用户进行分类。适用于社交网络Twitter也可能适用于其他社交网络。

通过这个应用程序,我们访问了阿拉伯语流的Twitter用户。正常化后引发的推特的文本,这是准备进一步处理。我们提取特征的用户添加到数据库和文本文件。然后分类器是应用于用户内容的存储数据。NB分类器作为多项分类器来检测五类(运动、宗教、经济、政治和技术)用阿拉伯语的准确率为90%。这个分类器有很多应用程序,比如推荐用户在Twitter上遵循基于文本内容,微博的行为,和名人在社交网络上学位和研究趋势。此外,测量转发活动是重要的影响权重。算法的应用大大提高了精度和分类的性能。加速由于parallelisation非常重要,因为在这一领域的大多数作品使用连续版本的算法,但是一些顺序算法不能适应并行版本。一些算法更好地工作在并行版本但其他算法有更好的表现在一个连续的版本。 By applying the proposed algorithm, the accuracy of the system has also increased. The efficient mobile app for this algorithm can help the effective tweet classification on the go since most of social networking is done on mobiles nowadays.

相互竞争的利益

作者宣称没有利益冲突。

确认

这项工作是支持的研究中心在沙特国王大学计算机与信息科学学院。作者感谢这种支持。

引用

a . m .卡普兰和m . Haenlein”全世界的用户,团结起来!社交媒体的挑战和机遇。”业务范围,53卷,不。1,59 - 68年,2010页。视图:出版商的网站|谷歌学术搜索
d . Scanfeld诉Scanfeld, e·l·拉尔森”通过社交网络传播健康信息:Twitter和抗生素,“美国感染控制杂志》上,38卷,不。3、182 - 188年,2010页。视图:出版商的网站|谷歌学术搜索
n Eltantawy j·b·王寅,“社交媒体在埃及革命:重新考虑资源动员理论,“国际期刊的沟通5卷,18页,2011年。视图:谷歌学术搜索
r . m .商人、美国埃尔默和n . Lurie“社交媒体整合到应急预备指导员工作,”《新英格兰医学杂志》上,卷365,不。4、289 - 291年,2011页。视图:出版商的网站|谷歌学术搜索
a . s . m .报告阿拉伯社会媒体报道,2014,http://www.arabsocialmediareport.com/home/index.aspx。
d .张和g .郭”,在线社交网络和现实生活中的社交网络的比较:一项研究的新浪微博,“数学问题在工程578713卷,2014篇文章ID, 6页,2014。视图:出版商的网站|谷歌学术搜索
e . Alwagait b·沙赫扎德和阿利姆,“社交媒体的使用对学生学业成绩的影响在沙特阿拉伯,“电脑在人类行为,51卷,第1097 - 1092页,2015年。视图:出版商的网站|谷歌学术搜索
b·沙赫扎德和大肠Alwagait“周末的改变影响社交活动?”通用计算机科学杂志》上,20卷,不。15日,第2079 - 2068页,2014年。视图:谷歌学术搜索
大肠Alwagait b·沙赫扎德,阿利姆,“改变在周末社交网络文化的影响在沙特阿拉伯,”第二届国际会议上未来的物联网和云(FiCloud 14)IEEE,页553 - 558年,巴塞罗那,西班牙,2014年8月。视图:出版商的网站|谷歌学术搜索
m . Thelwall k·巴克利,g . Paltoglou“社交网络情绪强度检测,”《美国社会信息科学和技术,卷63,不。1,第173 - 163页,2012。视图:出版商的网站|谷歌学术搜索
Himelboim, s . McCreery,平常和m·史密斯,“一丘之貉一起推:集成网络和内容分析检查cross-ideology暴露在推特上,“《电脑仲介沟通,18卷,不。2、奖金,2013页。视图:出版商的网站|谷歌学术搜索
e·费舍尔和a。r . Reuber”,通过新社交媒体:社会互动(如何)在Twitter上交互影响有效思维和行为吗?”杂志的商业冒险,26卷,不。1队,2011页。视图:出版商的网站|谷歌学术搜索
x胡锦涛和h·刘,在“文本分析在社会媒体,”挖掘文本数据施普林格,页385 - 414年,纽约,纽约,美国,2012年。视图:出版商的网站|谷歌学术搜索
m·h·戴维斯和i . s . Johnsrude“分层处理口语理解,”《神经科学杂志》上,23卷,不。8,3423 - 3431年,2003页。视图:谷歌学术搜索
o . m . Foong a·奥克斯利,s . Sulaiman”自动文本摘要的挑战和趋势。”国际期刊的信息和通信技术,1卷,不。1,2010。视图:谷歌学术搜索
a . Munigal”在印度使用微博:一项研究使用twitter的图书馆员和图书馆”图书馆期刊管理,54卷,不。7,590 - 608年,2014页。视图:出版商的网站|谷歌学术搜索
h .哇,大肠Kang s . Wang和k·h·李,“一个新的分割方法对点云数据,”国际机床制造杂志》上,42卷,不。2、167 - 178年,2002页。视图:出版商的网站|谷歌学术搜索
w .他美国咋,l·李,“社交媒体竞争分析和文本挖掘:一个案例研究在比萨行业,“国际信息管理杂志》上,33卷,不。3、464 - 472年,2013页。视图:出版商的网站|谷歌学术搜索
海达尔,s . Naoum r·豪斯,j .发“遗传算法应用程序和测试设备的选择,”建筑工程与管理》杂志上,卷125,不。1,32-38,1999页。视图:出版商的网站|谷歌学术搜索
r·马利克l .因特网和摘要,“结合文本挖掘算法提高了性能,”生物信息学,22卷,不。17日,第2157 - 2151页,2006年。视图:出版商的网站|谷歌学术搜索
j·博伦、h·毛和x曾庆红,“Twitter情绪预测股市,”计算机科学期刊,卷2,不。1,1 - 8,2011页。视图:出版商的网站|谷歌学术搜索
美国Kumar f . Morstatter h·刘,微博数据分析施普林格,纽约,纽约,美国,2014年。视图:出版商的网站
d·博伊德·高德,g·罗坍”微博,微博,转发:在twitter上转发的对话方面,”学报》第43届夏威夷国际会议系统科学(HICSS 43),页1530 - 1605,檀香山,夏威夷,美国2010年1月。视图:出版商的网站|谷歌学术搜索
j . d .汉堡,j·亨德森,g . Kim和g·萨雷拉,“在Twitter上歧视性别,”会议的程序在自然语言处理的经验方法,页1301 - 1309,计算语言学协会,爱丁堡,英国,2011年7月。视图:谷歌学术搜索
j . m . s . Wu霍夫曼w·a·梅森和d·j·瓦,“谁说什么谁在推特上,”20学报》国际会议上万维网(WWW的11)ACM,页705 - 714年,2011年4月。视图:出版商的网站|谷歌学术搜索
r . Ghosh、t . Surachawala和k . Lerman”Entropy-based分类“转发”活动在Twitter上,“http://arxiv.org/abs/1106.0346。视图:谷歌学术搜索
j . Benhardus和j . Kalita”在Twitter流趋势检测,”国际期刊的基于Web的社区,9卷,不。1,第139 - 122页,2013。视图:出版商的网站|谷歌学术搜索
m . Thelwall d·威尔金森,s . Uppal”在社交网络数据挖掘情感交流:性别差异在MySpace,”《美国社会信息科学和技术,卷61,不。1,第199 - 190页,2010。视图:出版商的网站|谷歌学术搜索
j·马哈茂德、j·尼科尔斯和c·德鲁斯”这个tweet来自哪里?:推断家里位置的Twitter用户,”学报第六届国际AAAI会议上博客和社交媒体(ICWSM 12),页511 - 514,都柏林,爱尔兰,2012年6月。视图:谷歌学术搜索
d . Bamman j·艾森斯坦,t . Schnoebelen“性别身份和词法社交媒体的变化,”《社会语言学,18卷,不。2、135 - 160年,2014页。视图:出版商的网站|谷歌学术搜索
m . De Choudhury: Diakopoulos, m .乃缦”展开的事件在twitter上景观:用户类别,分类和探索”ACM会议程序在计算机支持的协同工作(CSCW)的12)ACM,页241 - 244年,西雅图,洗,美国,2012年2月。视图:出版商的网站|谷歌学术搜索
m . Pennacchiotti和a m。Popescu”,民主党,共和党和星巴克迷:用户在twitter、分类”学报》第17届国际会议上知识发现和数据挖掘(ACM SIGKDD 11),页430 - 438,圣地亚哥,加利福尼亚州,美国,2011年8月。视图:谷歌学术搜索
m . Pennacchiotti和a m。Popescu,”twitter用户分类的机器学习方法,”第五国际诉讼AAAI博客和社交媒体会议上(ICWSM 11)西班牙巴塞罗那,页281 - 288,,2011年7月。视图:谷歌学术搜索
m·科诺菲尔j . Ratkiewicz m·弗朗西斯科b . Goncalves f . Menczer和a . Flammini“政治极化在twitter上”第五国际诉讼AAAI博客和社交媒体会议上(ICWSM 11)2011年7月、西班牙的巴塞罗那。视图:谷歌学术搜索
r . Tinati l·卡尔·w·霍尔,j .弯木制的“识别在twitter,沟通者角色”21 ACM国际会议的程序的同伴在万维网上,第1168 - 1161页,2012年。视图:出版商的网站|谷歌学术搜索
k . h . Lim和a·达塔”兴趣分类的Twitter用户使用维基百科,”学报》第九届国际研讨会在开放合作ACM,香港,2013年8月。视图:谷歌学术搜索
n·科利尔和美国Doan综合征分类Twitter消息,”电子医疗保健施普林格,页186 - 195年,柏林,德国,2012年。视图:谷歌学术搜索
g . Paltoglou和m . Thelwall”Twitter、MySpace、Digg:无监督情绪分析在社会媒体,”ACM智能交易系统和技术,3卷,不。4、第66条,2012年。视图:出版商的网站|谷歌学术搜索
d . Rao d . Yarowsky a Shreevats, m·古普塔“潜伏在twitter用户属性,分类”第二届国际研讨会上搜索和挖掘用户生成内容(SMUC 10)2010年10月,ACM 37-44页。。视图:出版商的网站|谷歌学术搜索
a . Althubaity a . Almuhareb s Alharbi a . Al-Rajeh和m . Khorsheed”KACST阿拉伯文本分类项目:概述,初步结果,”学报第九IBIMA会议信息管理在现代组织2008年1月,摩洛哥马拉喀什。视图:谷歌学术搜索
m . El Kourdi a Bensaid, t . Rachidi”阿拉伯语自动文档分类基于朴素贝叶斯算法”阿拉伯语20研讨会程序计算方法基于脚本语言(科尔' 04)页,51-58计算语言学协会,2004年8月。视图:谷歌学术搜索
f . Thabtah m . Eljinini m . Zamzeer和w·哈迪,“朴素贝叶斯基于x平方分布对阿拉伯语进行分类数据,”第11届国际业务信息管理协会学报》(IBIMA)创新与知识管理会议在双轨道的经济体Citeseer开罗,埃及,2009年1月。视图:谷歌学术搜索
z s Zubi”,使用一些web内容为阿拉伯文本分类挖掘技术,”最近进展数据网络、通信、计算机圆柱,84,页73 - 2009。视图:谷歌学术搜索
t .山下式h .佐藤,s, m .栗原市,“twitter用户基于以下分类关系,”学报的国际MultiConference工程师和计算机科学家(IMECS 13)香港,2013年3月。视图:谷歌学术搜索
a·l·丘吉尔、e . g . Liodakis和s . h .你们“Twitter相关过滤从用户聚类,通过联合贝叶斯分类器”斯坦福大学杂志》上,2010年。视图:谷歌学术搜索

移动信息系统

创新的移动信息系统:见解来自海湾合作国家和世界各地

文摘

1。介绍

2。Twitter用户的分类

2.1。基于规则的方法

2.2。基于机器学习的方法

3所示。阿拉伯语语言处理

5。分类算法

6。评价和实验

7所示。发现和结果

7.1。性能

7.2。精度

8。结论和未来的工作

相互竞争的利益

确认

引用

版权

更多相关文章

相关文章

移动信息系统

创新的移动信息系统:见解来自海湾合作国家和世界各地

阿拉伯语Twitter用户的分类:一项研究基于用户行为和利益

文摘

1。介绍

2。Twitter用户的分类

2.1。基于规则的方法

2.2。基于机器学习的方法

3所示。阿拉伯语语言处理

4所示。相关工作

5。分类算法

6。评价和实验

7所示。发现和结果

7.1。性能

7.2。精度

8。结论和未来的工作

相互竞争的利益

确认

引用

版权

更多相关文章

相关文章