文摘
性别预测是近年来广泛研究,因为它被广泛应用于许多领域。几个因素的调查来确定性别男性或女性通过面部图像,声音,步态,指纹,等。在这项研究中,我们提出一个基于机器学习的方法对性别决定在越南的名字。模型基于语法的全名、结合自己的中间名特性基于越南语言的特殊性,提出了。性别预测任务的实验评价应用于GenderVN1.0数据集(300万越南人的名字),达到90.9%的精度。
1。介绍
性别预测是机器学习中最重要的一个问题与各种应用市场营销、广告、电子商务、安全、和人类行为(1,2]。有许多研究性别认同基于面部图像(3,4],步态[5),社交媒体(6- - - - - -8),面部图像(9),耳朵图片(10),和文本(11]。近年来,基于人的性别识别的名字已经被许多作者[广泛关注12- - - - - -14]。
性别认同基础上的名字是自然语言处理的小标题和文本挖掘研究。它可以支持和应用在许多领域,如上下文广告、问题和回答系统,聊天机器人,机器翻译(15,16]。在市场营销,确定客户的具体性别允许提出产品正确的观众。例如,用户将减少所需的时间在系统来填补他们的信息。为了保护和避免欺诈宣言,性别等不同系统的预测是真的有用的客户管理系统、电子商务和社交网站。几个在线API服务提出了预测性别根据英文名字如Gender-API (https://gender-api.com/)和Genderize (https://genderize.io/)。因此,这种性别认同将是非常必要的系统问题和回答,聊天机器人,或机器翻译。它使与顾客的交互变得自然作为人类。
基于文本的性别决定首先追究作者识别。例如,程et al。17)预测的性别均无实质内容文本的作者在545年提出psycho-linguistic和性别特征。这些特性输出然后喂不同的分类器(决策树演算法、Na¨艾夫斯贝叶斯和支持向量机)性别预测。不同的语言对性别决定基于全名通过机器学习方法,比如俄罗斯(18,19)、印尼(14),中国(12,阿拉伯语20.)、英语(21- - - - - -23,埃纳德语24),巴西(25),泰国(26),和孟加拉27]。
几幅作品提出了性别认同,比如使用一个字典的名字(18),基于规则(28),和深度学习14]。一些研究用机器学习模型(7,24)与全名的提取特性有关。因为语言不同,提取这些特征也取决于每个语言的特征。除了使用字典的全名,Panchenko和Teterin18)包含词结束俄罗斯语言的语法特点和字符。结果非常令人满意,96%的准确性。唐et al。29日]介绍性别的方法推理和行为在Facebook上的用户名。他们调查了近170万名用户在纽约通过结合各种属性对。实验结果达到95.2%的精度。穆勒和Stumme13]使用性别认同基于统计机器学习方法的名称属性。作者建立了一个基于特征分类模型称为NamChar等作者选定数量的音节,辅音,元音,元音亮度,和结束字符。研究证明NamChar模型比性别的使用效率更高分数的准确性达70.9%,这对未知模型尤其有效名称。贾和赵12)都集中在简单的中国特色,结合语音信息(拼音和汉字)。然后,这些特性结合中国词嵌入基于pretrained伯特模型。这项工作的结果实现了93.5%的准确性。
使用语法特征提取是很常见的文本挖掘和自然语言处理(NLP)任务。在性别认同问题,语法的使用也被应用在许多项目14,30.,31日]。作者使用了语法特性作为机器学习模型的基本特征。在这项工作中,我们也关注使用语法特征提取,结合词频率对越南的中间名(TF)特性。
本文的其余部分组织如下。部分2介绍了特征提取的方法越南人的名字。部分3详细描述了数据集和我们的实验。最后,结论部分讨论了4。
2。方法
2.1。简要介绍越南的名字
越南完全有54个民族,京族绝大多数人口的近86% (32]。每个民族的人的名字是不一样的由于自己的语言33]。在这项工作中,我们重点调查京族人的全名。越南语言色调。因此,名称的拼写相同但不同的音调代表不同的含义。这些现象可以迷惑人们当重音符号(下降34]。越南个人姓名一般由三个部分如下:(1)一个家庭的名字或姓氏(2)一个或多个中间名(s)(其中一个可能是来自母亲的姓)(3)一个给定的名称或名字
大多数越南有一个中间的名字,但很有可能有两个或更多的人或没有中间名。必须安排在越南的全名。这条规则正式用于管理和日常生活。此外,一个女人的名字会改变结婚后与英国等其它国家相比,美国和中国。让我们举一个例子的全名:非政府组织Đăng Hưng。在这种情况下,非政府组织是姓或我们所说的姓。Đăng个人的中间名,Hưng给定或名字。的名字,最后,是用来解决的人,之前适当的非政府组织的头衔Đăng Hưng,例如。在正式使用,他是被他的名字(“先生。Hưng”),而不是他的家人的名字(“先生。 Ngô”). To better understand the structure of this name, we present and analyze several names in Table1。
据估计,大约有100家庭常用的名字,但有些人比其他人更常见。所使用的名称Nguyn估计是越南人口的近40% (35]。命名的越南人民也丰富多样。名字可以与深层内涵如Nguyễn华Binh Trần Hạnh永(展示和平、幸福);也可以简单的韵律与母公司的名称或者只是一朵花的名字命名(Phạm中联科利(菊花),宣局域网(兰花),星期四Hồng(玫瑰)…)。尽管越南名称不限制,有几件事需要是有限的,如避免有人在亲戚的名字(上一代和下一代),而不是命名男性对女性,反之亦然很容易区分,或者不给一个坏名声,以及迷信、狂热分子,和表面,如一个冠军和英雄。
此外,有些名字只能用于指定人的性别是男性和女性。在这些情况下,性别会标明清楚。然而,有许多名称用于男性和女性的名字。所以,如果我们只使用名称,有时我们不能区分性别的男性或女性。当这些名字加上中间的名字,性别可以很容易地确定。例如“一个”这个名字可以用来表示男性和女性性别或结合中间名,“Thanh,”“梭”奖励女性性别,和“阿萍,”“Mạnh“男性性别的反映。除了名字结合中间名字性别鉴定,在中间的名字也有单词表示男性或女性的性别。基于这个样子,我们也可以通过中间名识别性别。例如,在中间的名字,单词“thị”,“thuy”和“飞机”出现,性别是女性。中间的名字出现在相关的词“文学”和“强劲,”和性别是男性。 However, the formula for naming “văn for man” and “thị for women” seems to have changed a little nowadays.
2.2。分类器
以前的作品(36- - - - - -39]显示分类的比较研究来评估NLP任务的性能。所以,我们申请三个著名的分类器,如物流回归,朴素贝叶斯和随机森林。(我)朴素贝叶斯分类器是基于贝叶斯定理的概率理论。因此,该分类器依赖于概率和统计计算进行预测或分类的数据通常用于解决文本分类问题,垃圾邮件过滤,和情感识别(40,41]。(2)决策树是一个结构化的层次结构用于分类对象基于一系列的规则。决策树模型的结果是基于结果的问题。它可以应用于回归问题和分类问题。算法ID3、C4.5 J48,购物车(分类和回归树)是扩展算法从决策树算法42]。随机森林算法是装袋的扩展方法;它还结合了许多决策树成一个单一的模型。每个决策树的森林是由随机特性和只有一个随机访问的子集组训练数据点。(3)Logictics回归分析因变量之间的关系和一个或多个自变量基于概率通过物流/乙状结肠。这个模型是线性回归模型;他们还从训练数据集最小化估计系数和实际产出之间的不同的错误预测的输出。这个分类器也适用于预测[英文名字23]。
2.3。相关工作
所有的名字都将标记化的单词来描述,一个特征向量。这个词的频率(特遣部队)是一个词出现的频率和文档中出现的次数,除以总数量的单词在文档(40),这个词在文档中, 是文档词出现的频率,然后呢从这个文档是一个单词总数:
在计算语言学领域中,语法是一个连续的序列N个元素从一个给定的序列文本。这些物品可以被视为音节,字母,单词,或称碱基对。字格通常是从文本语料库中提取的。我们可以使用不同的N值,得到相应的大小如下:大小1被称为一个“unigram”,大小2是“三元”,和大小3是一个“卦。“大尺寸有时被称为N的值,例如,“four-gram”和“5克”。
基于以上特点,我们把语法特征提取的方法,越南的全名。图1演示了一个方案,根据越南名字性别决定。特征提取阶段应用特遣部队提取不同策略的中间名和名字。三种分类器被认为是预测性别。
2.4。评价指标
为了评估该方法的有效性,将使用一个精度指标。这个指标是正确的比例模型的测试在测试数据。这取决于四个参数TP(真阳性),TN(真阴性),FP(假阳性),和FN(假阴性)由下列公式计算:
3所示。实验和结果
我们建立了一个越南的全名性别决定任务的数据集,即GenderVN1.0。通过收集学生从高中到大学的列表,我们为男女双方获得将近百万的名字。据我们所知,这是第一次大规模的任务。数据清洗过程应用于去除重复名称相同的性别注释。GenderVN1.0数据集的特点见表2。生成的数据集在这个研究可以从相应的作者。
我们分解GenderVN1.0数据集分成两个不相交的子集,如培训和测试设置比60:40。特征提取是应用于训练数据,分类器构建模型。典型的越南人的名字由三个字组成,其中包括一个姓,一个中间名,和一分之一的名字。在这里,我们应用两种策略来提取特征等被认为是越南名字全名和不使用的姓。越南的名字通常由4个字三个字为男性和女性。三个值的 被认为是提取 - - - - - -克的特性。三个值的 被认为是提取 - - - - - -克的特性。对于每种类型的特性,我们三个分类器应用于独立预测性别。字格基本上是一组共病的词在一个给定的窗口,当计算- gram向前移动一个词。在这个问题上,为了一个共同的女性名字,“Nguyễn ThịBạch Tuyết。“如果我们利用三元提取特征 ,然后字格(我)Nguyễn Thị(2)ThịBạch(3)Bạch Tuyết
表3提出了测试集预测结果。我们观察到最好的精度是通过使用掉落提取这两种策略的逻辑回归。显然,一个姓不能允许我们预测一个人的性别。最好的精度达到90.9%的情况下使用中间名和姓。
当我们提到的部分2。1的中间名越南人对性别决定中起着重要作用。表4只说明了预测结果通过特征提取的中间名。我们观察到任何考虑分类器的预测结果达到76.0%左右或特征提取方法。这个结果再次证实,越南人民的中间名允许准确预测他们的性别。
4所示。结论
在本文中,我们提出了一个性别预测方法对越南的名字。我们首次大规模GenderVN1.0数据集提供了更多的3数百万越南对应于一个带注释的性别。实验结果表明该方法的有效性,实现90.9%的性别预测GenderVN1.0数据集。实验还表明,唯一的中间名充当一个重要角色性别预测准确度得到76.1%。然而,有几个该方法的局限性。它只可以识别的基于性别的京族人的名字。其次,它无法预测的性别越南名字加上外国人的话。
第一的未来工作是现在扩展到改善建议的方法,通过融合特征选择删除无关紧要,结合深特性。第二个观点是代表一个紧凑的特征描述符提取越南的名字。
数据可用性
在生成的数据集和/或分析在当前研究可从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是在胡志明市开放大学的支持下,越南。