移动信息系统

在这一页上

文摘介绍结果结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

AI-Enabled大数据处理物联网的实际应用

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID6570228| https://doi.org/10.1155/2022/6570228

计算语言学方法基于越南名字性别预测

梭Ho Huong ,¹ Kiet Tran-Trung,¹ 和Vinh Truong黄平君 ¹

学术编辑器: 艾哈迈德·法鲁克

收到了 2021年9月21日

接受 2022年1月18日

发表 2022年2月27日

文摘

性别预测是近年来广泛研究,因为它被广泛应用于许多领域。几个因素的调查来确定性别男性或女性通过面部图像,声音,步态,指纹,等。在这项研究中,我们提出一个基于机器学习的方法对性别决定在越南的名字。模型基于语法的全名、结合自己的中间名特性基于越南语言的特殊性,提出了。性别预测任务的实验评价应用于GenderVN1.0数据集(300万越南人的名字),达到90.9%的精度。

1。介绍

性别预测是机器学习中最重要的一个问题与各种应用市场营销、广告、电子商务、安全、和人类行为(1,2]。有许多研究性别认同基于面部图像(3,4],步态[5),社交媒体(6- - - - - -8),面部图像(9),耳朵图片(10),和文本(11]。近年来,基于人的性别识别的名字已经被许多作者[广泛关注12- - - - - -14]。

性别认同基础上的名字是自然语言处理的小标题和文本挖掘研究。它可以支持和应用在许多领域,如上下文广告、问题和回答系统,聊天机器人,机器翻译(15,16]。在市场营销,确定客户的具体性别允许提出产品正确的观众。例如,用户将减少所需的时间在系统来填补他们的信息。为了保护和避免欺诈宣言,性别等不同系统的预测是真的有用的客户管理系统、电子商务和社交网站。几个在线API服务提出了预测性别根据英文名字如Gender-API (https://gender-api.com/)和Genderize (https://genderize.io/)。因此,这种性别认同将是非常必要的系统问题和回答,聊天机器人,或机器翻译。它使与顾客的交互变得自然作为人类。

基于文本的性别决定首先追究作者识别。例如,程et al。17)预测的性别均无实质内容文本的作者在545年提出psycho-linguistic和性别特征。这些特性输出然后喂不同的分类器(决策树演算法、Na¨艾夫斯贝叶斯和支持向量机)性别预测。不同的语言对性别决定基于全名通过机器学习方法,比如俄罗斯(18,19)、印尼(14),中国(12,阿拉伯语20.)、英语(21- - - - - -23,埃纳德语24),巴西(25),泰国(26),和孟加拉27]。

几幅作品提出了性别认同,比如使用一个字典的名字(18),基于规则(28),和深度学习14]。一些研究用机器学习模型(7,24)与全名的提取特性有关。因为语言不同,提取这些特征也取决于每个语言的特征。除了使用字典的全名,Panchenko和Teterin18)包含词结束俄罗斯语言的语法特点和字符。结果非常令人满意,96%的准确性。唐et al。29日]介绍性别的方法推理和行为在Facebook上的用户名。他们调查了近170万名用户在纽约通过结合各种属性对。实验结果达到95.2%的精度。穆勒和Stumme13]使用性别认同基于统计机器学习方法的名称属性。作者建立了一个基于特征分类模型称为NamChar等作者选定数量的音节,辅音,元音,元音亮度,和结束字符。研究证明NamChar模型比性别的使用效率更高分数的准确性达70.9%,这对未知模型尤其有效名称。贾和赵12)都集中在简单的中国特色,结合语音信息(拼音和汉字)。然后,这些特性结合中国词嵌入基于pretrained伯特模型。这项工作的结果实现了93.5%的准确性。

使用语法特征提取是很常见的文本挖掘和自然语言处理(NLP)任务。在性别认同问题,语法的使用也被应用在许多项目14,30.,31日]。作者使用了语法特性作为机器学习模型的基本特征。在这项工作中,我们也关注使用语法特征提取,结合词频率对越南的中间名(TF)特性。

本文的其余部分组织如下。部分2介绍了特征提取的方法越南人的名字。部分3详细描述了数据集和我们的实验。最后,结论部分讨论了4。

2。方法

2.1。简要介绍越南的名字

越南完全有54个民族,京族绝大多数人口的近86% (32]。每个民族的人的名字是不一样的由于自己的语言33]。在这项工作中,我们重点调查京族人的全名。越南语言色调。因此,名称的拼写相同但不同的音调代表不同的含义。这些现象可以迷惑人们当重音符号(下降34]。越南个人姓名一般由三个部分如下:(1)一个家庭的名字或姓氏(2)一个或多个中间名(s)(其中一个可能是来自母亲的姓)(3)一个给定的名称或名字

大多数越南有一个中间的名字,但很有可能有两个或更多的人或没有中间名。必须安排在越南的全名。这条规则正式用于管理和日常生活。此外,一个女人的名字会改变结婚后与英国等其它国家相比,美国和中国。让我们举一个例子的全名:非政府组织Đăng Hưng。在这种情况下,非政府组织是姓或我们所说的姓。Đăng个人的中间名,Hưng给定或名字。的名字,最后,是用来解决的人,之前适当的非政府组织的头衔Đăng Hưng,例如。在正式使用,他是被他的名字(“先生。Hưng”),而不是他的家人的名字(“先生。 Ngô”). To better understand the structure of this name, we present and analyze several names in Table1。

据估计,大约有100家庭常用的名字,但有些人比其他人更常见。所使用的名称Nguyn估计是越南人口的近40% (35]。命名的越南人民也丰富多样。名字可以与深层内涵如Nguyễn华Binh Trần Hạnh永(展示和平、幸福);也可以简单的韵律与母公司的名称或者只是一朵花的名字命名(Phạm中联科利(菊花),宣局域网(兰花),星期四Hồng(玫瑰)…)。尽管越南名称不限制,有几件事需要是有限的,如避免有人在亲戚的名字(上一代和下一代),而不是命名男性对女性,反之亦然很容易区分,或者不给一个坏名声,以及迷信、狂热分子,和表面,如一个冠军和英雄。

此外,有些名字只能用于指定人的性别是男性和女性。在这些情况下,性别会标明清楚。然而,有许多名称用于男性和女性的名字。所以,如果我们只使用名称,有时我们不能区分性别的男性或女性。当这些名字加上中间的名字,性别可以很容易地确定。例如“一个”这个名字可以用来表示男性和女性性别或结合中间名,“Thanh,”“梭”奖励女性性别,和“阿萍,”“Mạnh“男性性别的反映。除了名字结合中间名字性别鉴定,在中间的名字也有单词表示男性或女性的性别。基于这个样子,我们也可以通过中间名识别性别。例如,在中间的名字,单词“thị”,“thuy”和“飞机”出现,性别是女性。中间的名字出现在相关的词“文学”和“强劲,”和性别是男性。 However, the formula for naming “văn for man” and “thị for women” seems to have changed a little nowadays.

2.2。分类器

以前的作品(36- - - - - -39]显示分类的比较研究来评估NLP任务的性能。所以,我们申请三个著名的分类器,如物流回归,朴素贝叶斯和随机森林。(我)朴素贝叶斯分类器是基于贝叶斯定理的概率理论。因此,该分类器依赖于概率和统计计算进行预测或分类的数据通常用于解决文本分类问题,垃圾邮件过滤,和情感识别(40,41]。(2)决策树是一个结构化的层次结构用于分类对象基于一系列的规则。决策树模型的结果是基于结果的问题。它可以应用于回归问题和分类问题。算法ID3、C4.5 J48,购物车(分类和回归树)是扩展算法从决策树算法42]。随机森林算法是装袋的扩展方法;它还结合了许多决策树成一个单一的模型。每个决策树的森林是由随机特性和只有一个随机访问的子集组训练数据点。(3)Logictics回归分析因变量之间的关系和一个或多个自变量基于概率通过物流/乙状结肠。这个模型是线性回归模型;他们还从训练数据集最小化估计系数和实际产出之间的不同的错误预测的输出。这个分类器也适用于预测[英文名字23]。

2.3。相关工作

所有的名字都将标记化的单词来描述,一个特征向量。这个词的频率(特遣部队)是一个词出现的频率和文档中出现的次数,除以总数量的单词在文档(40),这个词在文档中, 是文档词出现的频率,然后呢从这个文档是一个单词总数:

在计算语言学领域中,语法是一个连续的序列N个元素从一个给定的序列文本。这些物品可以被视为音节,字母,单词,或称碱基对。字格通常是从文本语料库中提取的。我们可以使用不同的N值,得到相应的大小如下:大小1被称为一个“unigram”,大小2是“三元”,和大小3是一个“卦。“大尺寸有时被称为N的值,例如,“four-gram”和“5克”。

基于以上特点,我们把语法特征提取的方法,越南的全名。图1演示了一个方案,根据越南名字性别决定。特征提取阶段应用特遣部队提取不同策略的中间名和名字。三种分类器被认为是预测性别。

2.4。评价指标

为了评估该方法的有效性,将使用一个精度指标。这个指标是正确的比例模型的测试在测试数据。这取决于四个参数TP(真阳性),TN(真阴性),FP(假阳性),和FN(假阴性)由下列公式计算:

3所示。实验和结果

我们建立了一个越南的全名性别决定任务的数据集,即GenderVN1.0。通过收集学生从高中到大学的列表,我们为男女双方获得将近百万的名字。据我们所知,这是第一次大规模的任务。数据清洗过程应用于去除重复名称相同的性别注释。GenderVN1.0数据集的特点见表2。生成的数据集在这个研究可以从相应的作者。

我们分解GenderVN1.0数据集分成两个不相交的子集,如培训和测试设置比60:40。特征提取是应用于训练数据,分类器构建模型。典型的越南人的名字由三个字组成,其中包括一个姓,一个中间名,和一分之一的名字。在这里,我们应用两种策略来提取特征等被认为是越南名字全名和不使用的姓。越南的名字通常由4个字三个字为男性和女性。三个值的被认为是提取 - - - - - -克的特性。三个值的被认为是提取 - - - - - -克的特性。对于每种类型的特性,我们三个分类器应用于独立预测性别。字格基本上是一组共病的词在一个给定的窗口,当计算- gram向前移动一个词。在这个问题上,为了一个共同的女性名字,“Nguyễn ThịBạch Tuyết。“如果我们利用三元提取特征 ,然后字格(我)Nguyễn Thị(2)ThịBạch(3)Bạch Tuyết

表3提出了测试集预测结果。我们观察到最好的精度是通过使用掉落提取这两种策略的逻辑回归。显然,一个姓不能允许我们预测一个人的性别。最好的精度达到90.9%的情况下使用中间名和姓。

当我们提到的部分2。1的中间名越南人对性别决定中起着重要作用。表4只说明了预测结果通过特征提取的中间名。我们观察到任何考虑分类器的预测结果达到76.0%左右或特征提取方法。这个结果再次证实,越南人民的中间名允许准确预测他们的性别。

4所示。结论

在本文中,我们提出了一个性别预测方法对越南的名字。我们首次大规模GenderVN1.0数据集提供了更多的3数百万越南对应于一个带注释的性别。实验结果表明该方法的有效性,实现90.9%的性别预测GenderVN1.0数据集。实验还表明,唯一的中间名充当一个重要角色性别预测准确度得到76.1%。然而,有几个该方法的局限性。它只可以识别的基于性别的京族人的名字。其次,它无法预测的性别越南名字加上外国人的话。

第一的未来工作是现在扩展到改善建议的方法,通过融合特征选择删除无关紧要,结合深特性。第二个观点是代表一个紧凑的特征描述符提取越南的名字。

数据可用性

在生成的数据集和/或分析在当前研究可从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是在胡志明市开放大学的支持下,越南。

引用

l·a·亚历山大“性别识别:一个多尺度决定融合方法,”模式识别的字母没有,卷。31日。11日,第1427 - 1422页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
h·h·赛义德·m·h·阿什拉夫f . Kamiran a·卡里姆和t·考尔德,“罗马乌尔都语有毒评论分类,”语言资源和评价,55卷,2021年。
视图: 出版商的网站 | 谷歌学术搜索
k .汗m .顶层。赛义德,居尔,“通过脸分割自动性别分类,”对称,11卷,不。6,770年,页2019。
视图: 出版商的网站 | 谷歌学术搜索
Swaminathan, m . Chaba d·k·沙玛和y Chaba,“性别分类使用面部嵌入:一个新颖的方法,”Procedia计算机科学卷,167年,第2642 - 2634页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
l . Cai j .朱h .曾庆红,j . Chen c . Cai和K.-K。马,”HOG-assisted深度特性为行人性别识别学习,”富兰克林研究所杂志》上,卷355,不。4、1991 - 2008年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
l . m . Lopez-Santamaria j·c·戈麦斯d l . Almanza-Ojeda和m . a . Ibarra-Manzano”不平衡的社会媒体,年龄和性别鉴定”《2019年国际会议上电子、通信和计算机(CONIELECOMP)IEEE,页74 - 80年,乔鲁拉,墨西哥,2019年3月。
视图: 出版商的网站 | 谷歌学术搜索
p . i Kiratsa g·k . Sidiropoulos e . v . Badeka c . i Papadopoulou a . p . Nikolaou和g·a·Papakostas,“性别认同通过facebook数据分析使用机器学习技术,”学报Tewnty——发起成立第二个会议信息——PCI的18岁ACM出版社,页117 - 120年,雅典,希腊,2018年12月。
视图: 出版商的网站 | 谷歌学术搜索
a . Orita正式“什么是你的名字吗?:在日本社会生活情境使用姓氏,”学报》第四届会议上性别&——GenderIT 18ACM出版社,页161 - 163年,海尔布隆,德国,2018年5月。
视图: 出版商的网站 | 谷歌学术搜索
m . t . Vi l . t . Dat诉t .黄平君和t . a .越南“无人监督的性别预测基于面部特征,”2021年消费者缩放创新技术研讨会论文集(锌),页1 - 4,诺维萨德,塞尔维亚,2021年5月。
视图: 出版商的网站 | 谷歌学术搜索
h . nguyen quoc和v . t .黄平君性别识别基于耳朵图片:比较试验研究,”学报2020年第三国际研讨会研究信息技术与智能系统(ISRITI),页451 - 456,日惹,印尼,2020年12月。
视图: 出版商的网站 | 谷歌学术搜索
克鲁格和b·赫尔曼”在线服务可以预测性别吗?从文本的最先进的性别认同,”学报2019年IEEE / ACM第二国际研讨会上性别平等在软件工程(GE)IEEE,页13 - 16,QC,蒙特利尔加拿大,2019年5月。
视图: 出版商的网站 | 谷歌学术搜索
j·贾问:赵,“性别预测基于中文名字,”自然语言处理和中国的计算j .唐,m . y .菅直人d .赵s . Li和h .簪,Eds。,vol. 11839, pp. 676–683, Springer International Publishing, Cham, New York, NY, USA, 2019.
视图: 出版商的网站 | 谷歌学术搜索
j·穆勒和g . Stumme性别推理使用统计的名字特点在twitter”《第三多学科国际社交网络会议在2016年SocialInformatics,数据科学2016 - MISNC, SI, DS 2016,页1 - 8,ACM出版社,联盟,新泽西,美国,2016年8月。
视图: 出版商的网站 | 谷歌学术搜索
答:a . Septiandri“预测印尼名字的性别,”2017年,https://arxiv.org/abs/1707.07129。
视图: 谷歌学术搜索
r·斯坦伯格”的调查方法来缓解高多语种文本挖掘应用程序的发展,“语言资源和评价,46卷,不。2、155 - 176年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
h . Duong和v . t .黄平君问答基于大学录取通知的合奏分类器,”学报2019年11日国际会议上知识和智能技术页,35-39键糟),普吉岛,泰国,2019年1月。
视图: 出版商的网站 | 谷歌学术搜索
r . n . Cheng华和k . p . Subbalakshmi“性别识别从文本、作者”数字调查,8卷,不。1,第88 - 78页,2011。
视图: 出版商的网站 | 谷歌学术搜索
a . Panchenko和a . Teterin”检测性别全名:实验与俄罗斯语言,”通信在计算机和信息科学d . i Ignatov, m . y . Khachay a . Panchenko n . Konstantinova和r . e . Yavorsky, Eds。,vol. 436, pp. 169–182, Springer International Publishing, Cham, New York, NY, USA, 2014.
视图: 出版商的网站 | 谷歌学术搜索
a . Sboev Moloshnikov, d . Gudovskikh a . Selivanov r . Rybka和t . Litvinova”自动性别认同俄罗斯文本的作者通过机器学习和神经网络算法在性别欺骗的情况下,“Procedia计算机科学卷,123年,第423 - 417页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
s . a . Alanazi”自动性别检测识别功能:语料库的创建和分析,“IEEE访问ID 111931条,卷。7日,2019年。
视图: 出版商的网站 | 谷歌学术搜索
g·西科尼,苏丹,l . Laporte和m . Granitzer堆叠性别预测从推特文本和图像2020年,p . 11日。
l . Santamaria和h . Mihaljević比较和基准name-to-gender推理服务。”PeerJ计算机科学p . e156卷。4日,2018年。
视图: 出版商的网站 | 谷歌学术搜索
y, c . Hu t . Tran t .卷,e·约瑟夫·m .吉林厄姆,”在一个叫什么名字?性别分类名称与性格的基于机器学习模型,”数据挖掘和知识发现,35卷,1-27,2021页。
视图: 出版商的网站 | 谷歌学术搜索
a . n .鹩哥l . r . Swaroop美国对冲基金,美国Sourabh,和g . s . Rakshith高达,”埃纳德语名字,性别认同”学报2019年第一次国际会议上的进步信息技术(ICAIT)Chikmagalur,页421 - 426年,印度,2019年7月。
视图: 出版商的网站 | 谷歌学术搜索
r . c . b .“政府改造”和v . m . l .席尔瓦”预测性别使用深度学习巴西的名字,”2021年,https://arxiv.org/abs/2106.10156。
视图: 谷歌学术搜索
s . Yuenyong s Sinthupinyo, s . Sinthupinyo“性别分类的泰国facebook用户名”,国际机器学习和计算机杂志》上,10卷,不。5,618 - 623年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
j . f . Ani m .伊斯兰教,n . j . Ria akt,和a·k·穆罕默德Masum”估计基于孟加拉传统姓名性别与不同的机器学习技术,”学报2021年Tweleveth计算机通信和网络技术国际会议(ICCCNT),页1 - 6,Kharagpur,印度,2021年7月。
视图: 出版商的网站 | 谷歌学术搜索
h·刘和m . Cocea”模糊性别分类从博客数据,基于规则的系统”学报》2018年第十届国际会议上先进的计算智能(ICACI)IEEE,页79 - 84年,厦门,中国,2018年3月。
视图: 出版商的网站 | 谷歌学术搜索
c . Tang k·罗斯:Saxena, r·陈”在一个叫什么名字:一项研究的名字,性别推理,在facebook和性别行为”晚期应用程序的数据库系统徐j . g . Yu, s .周和r . Unland, Eds。,vol. 6637, pp. 344–356, Springer Berlin Heidelberg, Berlin, Germany, 2011.
视图: 出版商的网站 | 谷歌学术搜索
d·阿里·m·穆罕默德,n, n . Salamat h . Asmat和a . Firdous“性别预测专家发现任务,”Ijacsa,7卷,不。5,2016。
视图: 出版商的网站 | 谷歌学术搜索
Daneshvar和d . Inkpentwitter使用- gram和lsa性别认同:潘谱号2018笔记本,2018年谱号。
b•鲍尔奇对此k·t·t·Chuyen, d·霍顿和j·霍顿,在越南少数民族发展:社会经济视角美国,世界银行,Wasington特区,2002年。
p h . KhươngĐoi净VĐcĐim 10 H Ca进行下一代Ngi Trung Quc Va进行下一代Ngi维特不结盟运动,7卷,不。237、2015、多边形Ngữ&Đời Sống。
p·t·l·t·肥厚性骨关节病变与肺部转移“Họva十người Việt不结盟运动,“NXB Khoa Học Xa Hội,北京,中国,2005。
视图: 谷歌学术搜索
h . m .阮b h . Tran t·d·Vuong问:Vuong,对于初学者来说口语越南:完整的课程劳特利奇,2012年英国牛津郡。
f . Hemmatian和m . k . Sohrabi”调查分类技术意见挖掘和情感分析,“人工智能审查52卷,2017年。
视图: 出版商的网站 | 谷歌学术搜索
k .双z张、郭h . j .厕所,“情绪信息Collector-Extractor架构基于神经网络对情绪分析,“信息科学卷,467年,第558 - 549页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
答:a . Farisi y Sibaroni, s . a . Faraby”情绪分析酒店评论使用多项朴素贝叶斯分类器,”物理学杂志》:会议系列文章ID 12024卷,1192年,2019年。
视图: 出版商的网站 | 谷歌学术搜索
h·t·Duong诉Truong黄平君:“一项调查对新的基准数据集的多个分类器越南新闻分类”学报2019年十一知识和智能技术国际会议(自主)页,23-28 IEEE,普吉岛,泰国,2019年1月。
视图: 出版商的网站 | 谷歌学术搜索
r . Ahuja发出轧轧声,克里,s .古普塔和p . Ahuja”情绪分析特征提取的影响,“Procedia计算机科学卷,152年,第348 - 341页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
r·奥斯曼y Abdelsadek, k . Chelghoum Kacem, r·费兹,“改善情绪分析twitter使用嵌入的特定情绪词,”学报》2019年第十届IEEE国际会议上智能数据采集和先进的计算系统:技术和应用程序(IDAACS)IEEE,页854 - 858年,法国梅斯(2019年9月。
视图: 出版商的网站 | 谷歌学术搜索
c·莱斯特那a . Saffari j . Santner h .女孩,“Semi-supervised随机森林,”学报2009年IEEE 12计算机视觉国际会议IEEE,页506 - 513年,京都,日本,2009年10月。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

642年

下载

342年

引用