研究文章|
Rasim m . Alguliev拉米兹m . Aliguliyev Saadat Nazirova
使用数据挖掘技术文本分类垃圾邮件
文摘
gydF4y2Ba一种新的聚类方法收集的垃圾短信在基地的反垃圾邮件系统。遗传算法开发为解决聚类问题。目标函数最大化消息集群之间的相似性,所定义的<年代vghe我ght=”10。7375" id="M1" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
1。介绍
gydF4y2Ba电子邮件是一种有效、快速和廉价的通信方式。因此,垃圾邮件发送者更喜欢通过这种沟通发送垃圾邮件。现在几乎每一个第二个用户都有一个电子邮件,因此他们面临着垃圾邮件问题。垃圾邮件是nonrequested信息发送到电子邮件箱。垃圾邮件是一个大问题对于用户和互联网服务提供商。电子通讯的原因是增长的价值一方面和另一方面提高垃圾邮件发送技术。赛门铁克的垃圾邮件报告,2010年全年平均全球垃圾邮件率为89.1%,与2009年相比增长了1.4%。垃圾邮件的比例从2010年的僵尸网络要高得多,占大约88.2%的垃圾邮件。尽管许多试图阻止僵尸网络活动在2010年,由今年年底的总数活跃机器人回到大致相同的数量在2009年底,全世界大约有五百万垃圾邮件发送的僵尸网络使用(<一个href=”#B1">1一个>]。
gydF4y2Ba垃圾短信导致产量低;在邮箱占用空间;延长病毒、特洛伊木马和材料含有潜在有害信息对某些类别的用户;破坏稳定的邮件服务器,因此用户花费了大量的时间进行排序的邮件和删除不良对应。从摩天的研究报告显示,全球垃圾邮件花了约1300亿美元的损失,2009年和420亿年在美国,(<一个href=”#B2">2一个>]。除了收购费用、安装和服务的防护手段,用户不得不支付额外费用的过载与交通,失败的服务器,和生产力损失。我们可以做这样的结论:垃圾邮件不仅是一个刺激因素,而且直接威胁到业务。考虑到惊人数量的垃圾短信来电子邮件箱,可以假定垃圾邮件发送者不单独操作;它是全球性的,组织,创建虚拟社交网络。他们攻击邮件的用户,整个公司,甚至国家。
gydF4y2Ba每天电子邮件用户收到数以百计的垃圾短信的新内容,新地址由机器人自动生成软件。与传统方法黑白名单过滤垃圾邮件(域,IP地址,邮件地址)几乎是不可能的。应用文本挖掘方法,电子邮件可以提高垃圾邮件过滤的效率。分类垃圾短信也有可能建立主题依赖从地理(例如,对象在某些国家的垃圾短信发送)。文本聚类和分类的方法从近十年来被成功地应用于垃圾邮件问题。电子邮件到合法和垃圾邮件的过滤聚类分析的帮助下在报纸上被认为是(<一个href=”#B3">3一个>- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -
gydF4y2Ba本文着重于文本分类垃圾电子邮件使用数据挖掘技术。我们的目的是不仅过滤消息为垃圾邮件和垃圾邮件,但还是把垃圾短信分成主题类似的组织和分析他们,为了定义垃圾邮件发送者的社交网络(<一个href=”#B10">10一个>]。
gydF4y2Ba剩下的纸是组织如下。部分<一个href=”#sec2">2一个>提出了相关的工作。部分<一个href=”#sec3">3一个>描述了垃圾短信的表示在数据库中分析并定义了垃圾短信之间的相似性度量。该聚类方法提出了部分<一个href=”#sec4">4一个>。的遗传算法解决聚类问题提供部分<一个href=”#sec5">5一个>。分类收集垃圾短信的使用<年代vghe我ght=”10。7375" id="M2" style="vertical-align:-0.13794pt;width:31.1625px;" version="1.1" viewbox="0 0 31.1625 10.7375" width="31.1625" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba垃圾短信是信息战争的武器之一。自2003年以来,科学文献概念垃圾邮件和战争出现在一个上下文(<一个href=”#B11">11一个>,
gydF4y2Ba摘要文档聚类方法应用于聚类分析垃圾短信。在我们的例子中,文本文档文本电子邮件。尽管有许多的方法来表示文本文件,其中最普遍的是向量模型。文本的向量模型表示已在沙顿的作品<一个href=”#B16">16一个>,
gydF4y2Ba聚类是数据挖掘中最有用的方法之一自然组检测数据集。传统算法,聚类问题的解决方案等<年代vghe我ght=”10。7375" id="M3" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
垃圾短信的集群意味着自动分组主题关闭垃圾短信。信息流是电子邮件,这个问题变得复杂的必要性进行这个过程实时模式。有一些并发症与多元化的选择算法聚类的垃圾短信。不同的方法使用不同的电子文档的相似度算法相当数量的迹象。类是由聚类方法,有他们的支持为垃圾邮件的必要性也在不断变化,和垃圾短信收集补充。在考虑工作,新的算法定义判别函数的垃圾短信提供聚类问题。本身是解决聚类问题的遗传算法(<一个href=”#B32">28一个>]。遗传算法是许多科学著作的主题。例如,在[<一个href=”#B33">29日一个>)遗传算法用于聚类的调查乐团,基因型,健身功能和遗传操作和得出结论,提出了使用遗传算法聚类整体提高了聚类精度。
gydF4y2Ba在这个工作中,对垃圾短信的分类<年代vghe我ght=”10。7375" id="M4" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba假设有一组收集的垃圾短信服务器上的分层的垃圾邮件过滤系统,描述在文献[<一个href=”#B37">33一个>]。在应用这些垃圾短信的聚类方法聚类分析,每个人都应该指定输入数据。有一些方法信息表示在数据库维护的后续分析这些信息。我们将考虑的最流行的方法来表示文本信息动态到达数据库的信息系统。让我们考虑集合向量空间的垃圾短信。假设<年代vghe我ght=”14。75” id="M5" style="vertical-align:-3.20526pt;width:101.8375px;" version="1.1" viewbox="0 0 101.8375 14.75" width="101.8375" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba后的垃圾短信,应该定义它们之间的相似性度量。相似性度量可以被定义为一个指标:余弦度量,欧式距离,Jaccard措施。在本文中,垃圾短信之间的相似性度量<年代vghe我ght=”11。05” id="M27" style="vertical-align:-3.2316pt;width:11.025px;" version="1.1" viewbox="0 0 11.025 11.05" width="11.025" xmlns="http://www.w3.org/2000/svg">
考虑垃圾短信的向量模型和选择指标垃圾短信之间的相似性度量,提出的算法可以应用的内容分析。提供算法由以下步骤组成:<年代p一个ncl一个年代年代=”l我年代t”> 聚类方法,年代p一个n>年代p一个n> 解决聚类问题的算法,年代p一个n>年代p一个n> 分类收集垃圾短信,年代p一个n>年代p一个n> 从类中提取知识。年代p一个n>年代p一个n>
下面给出每个步骤的详细描述。
gydF4y2Ba数据聚类是将数据元素分成类或簇的过程,因此项目在同一类尽可能相似,而在不同的类是尽可能不同。根据数据的性质和使用集群的目的,不同的相似性措施可以用来将物品放入类,相似的测量控制集群是如何形成的。两种类型的集群定义:硬或模糊聚类。在模糊聚类(也称为软聚类),数据元素可以属于多个集群,并与每个元素相关联是一组会员的水平。在硬聚类、数据划分为不同的簇,每个数据元素属于一个集群(<一个href=”#B39">35一个>]。
gydF4y2Ba聚类的目的是将一组<年代vghe我ght=”14。75” id="M36" style="vertical-align:-3.20526pt;width:104.175px;" version="1.1" viewbox="0 0 104.175 14.75" width="104.175" xmlns="http://www.w3.org/2000/svg">
让我们介绍一下以下名称:<年代p一个ncl一个年代年代=”equation" id="EEq5">
是一组<年代vghe我ght=”10。7375" id="M40" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
如果<年代vghe我ght=”16。637501" id="M46" style="vertical-align:-4.77652pt;width:43.674999px;" version="1.1" viewbox="0 0 43.674999 16.637501" width="43.674999" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba让<年代vghe我ght=”12。925” id="M60" style="vertical-align:-4.74141pt;width:18.1px;" version="1.1" viewbox="0 0 18.1 12.925" width="18.1" xmlns="http://www.w3.org/2000/svg">
考虑上面的名称,集群的准则函数可以定义如下:<年代p一个ncl一个年代年代=”equation" id="EEq8">
集群是不重叠的,每一个<年代vghe我ght=”7。1374998" id="M65" style="vertical-align:-0.10033pt;width:7.8874998px;" version="1.1" viewbox="0 0 7.8874998 7.1374998" width="7.8874998" xmlns="http://www.w3.org/2000/svg">
另一方面,据推测每个集群包含至少一个垃圾信息,不包含所有垃圾短信。<年代p一个ncl一个年代年代=”equation" id="EEq10"> 在哪里<年代p一个ncl一个年代年代=”equation" id="EEq11">
垃圾短信的聚类问题是形式化的布尔二次规划(<一个href=”#EEq8">8一个>)- - - - - -(
gydF4y2Ba遗传算法是解决大尺寸问题强有力的工具。但他们并不能保证发现的一个最优的解决方案。在遗传算法中,第一步是一个染色体编码的形式的解决方案取决于一个解决问题的特点。因此,在使用遗传算法之前,首先需要设计解决方案的问题形式的染色体。从字符解决问题(<一个href=”#EEq8">8一个>)- - - - - -(
gydF4y2Ba需要注意的是,遗传算法很容易应用于无约束最优化问题,但遗传算法求解约束问题时所面临的问题不可行解决方案的出现。不可行的解决方案解决方案,打破限制(在我们的例子中条件(<一个href=”#EEq9">9一个>)和(<一个href=”#EEq10">10一个>))。用遗传算法解决问题时,最重要的是,不断支持算法工作期间的可行性解决方案,也就是说,维护染色体,这样他们不打破限制(条件)的一个问题。有不同的方法来预防发生不可行染色体(<一个href=”#B40">36一个>- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -- - - - - -
gydF4y2Ba罚函数法的思想是减少不可行染色体发生时适应度函数的值。如果最小化问题是,那么引入罚函数应该大幅增加的健身价值不可行染色体。,相反,如果最大化问题是,罚函数应该大幅减少建筑物的健身价值不可行染色体。在构造罚函数之前,我们推出以下名称:<年代p一个ncl一个年代年代=”equation" id="eq1">
的问题(<一个href=”#EEq8">8一个>)- - - - - -(
gydF4y2Ba考虑到最后一条语句,惩罚函数应该定义如下:<年代p一个ncl一个年代年代=”equation" id="EEq12">
在哪里<年代vghe我ght=”12。3”我d="M95" style="vertical-align:-1.29163pt;width:36.137501px;" version="1.1" viewbox="0 0 36.137501 12.3" width="36.137501" xmlns="http://www.w3.org/2000/svg">
这个函数<年代vghe我ght=”13。45”我d="M97" style="vertical-align:-2.21957pt;width:30.15px;" version="1.1" viewbox="0 0 30.15 13.45" width="30.15" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba很容易显示功能(<一个href=”#EEq12">13一个>)和(<一个href=”#EEq12">14一个>)有以下条件:<年代p一个ncl一个年代年代=”l我年代t”>(我)年代p一个n><年代p一个ncl一个年代s="list-content">如果条件(<一个href=”#EEq9">9一个>)是满意的<年代vghe我ght=”13。45”我d="M99" style="vertical-align:-2.21957pt;width:57.349998px;" version="1.1" viewbox="0 0 57.349998 13.45" width="57.349998" xmlns="http://www.w3.org/2000/svg">
因此,如果两个条件(<一个href=”#EEq9">9一个>)和(<一个href=”#EEq10">10一个>)感到满意,解决方案是可行的<年代vghe我ght=”13。45”我d="M105" style="vertical-align:-2.21957pt;width:85.337502px;" version="1.1" viewbox="0 0 85.337502 13.45" width="85.337502" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba考虑惩罚函数的性质,乘以标准函数(<一个href=”#EEq8">8一个>)
在另一方面,染色体可以在原始的形式设计<年代vghe我ght=”14。6875" id="M109" style="vertical-align:-3.20526pt;width:121.5375px;" version="1.1" viewbox="0 0 121.5375 14.6875" width="121.5375" xmlns="http://www.w3.org/2000/svg">
例如,<年代vghe我ght=”13。45”我d="M114" style="vertical-align:-2.21957pt;width:136.03751px;" version="1.1" viewbox="0 0 136.03751 13.45" width="136.03751" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba让我们注意到在这样的染色体设计条件(<一个href=”#EEq9">9一个>)将总是满意。在[<一个href=”#B41">37一个>],它已经表明,这样的运营商实现可行染色体不会导致发生不可行染色体。有效只有在这种情况下生成初始种群时遵守的条件(<一个href=”#EEq10">10一个>)。随着聚类数量的垃圾短信的数量远远超过集群<年代vghe我ght=”11。3” id="M129" style="vertical-align:-2.29482pt;width:38.9375px;" version="1.1" viewbox="0 0 38.9375 11.3" width="38.9375" xmlns="http://www.w3.org/2000/svg">
作为选择算子,染色体的选择比例,从目前的人口<年代vghe我ght=”14。725” id="M133" style="vertical-align:-3.24037pt;width:136.08749px;" version="1.1" viewbox="0 0 136.08749 14.725" width="136.08749" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba在这里<年代vghe我ght=”10。325" id="M135" style="vertical-align:-0.0pt;width:12.7px;" version="1.1" viewbox="0 0 12.7 10.325" width="12.7" xmlns="http://www.w3.org/2000/svg">
应用罚函数,遗传算法的方法产生的不可行解运营商将消除过程中涉及的健身价值,和可行的决策将有更多的机会为了生存,也就是说,惩罚函数方法允许加快遗传算法的收敛过程。这是因为惩罚函数方法在发生不可行染色体不要求额外的性能操作(反冲和染色体回到以前的状态,修正不可行染色体,等等)。这里需要注意的是,任何类型的交叉和变异的经营者可以作为惩罚函数的输入。
gydF4y2Ba现在停止准则应该定义,这是遗传算法的一个重要步骤。
gydF4y2Ba密实度的最大化导致每个集群点非常类似于相应的中心。因此,我们将定义坐标中心的集群。<年代vghe我ght=”12。675” id="M144" style="vertical-align:-2.34499pt;width:7.1374998px;" version="1.1" viewbox="0 0 7.1374998 12.675" width="7.1374998" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba集群的密实度<年代vghe我ght=”16。3375” id="M151" style="vertical-align:-4.74141pt;width:16.5875px;" version="1.1" viewbox="0 0 16.5875 16.3375" width="16.5875" xmlns="http://www.w3.org/2000/svg">
的平均相似集群<年代vghe我ght=”16。3375” id="M153" style="vertical-align:-4.74141pt;width:16.5875px;" version="1.1" viewbox="0 0 16.5875 16.3375" width="16.5875" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba如果条件<年代vghe我ght=”16。6”我d="M158" style="vertical-align:-4.74141pt;width:112.6625px;" version="1.1" viewbox="0 0 112.6625 16.6" width="112.6625" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba收集的垃圾短信永久改变,补充新类型的垃圾短信集群后,有必要陪集群。所以应该分类垃圾短信的集合。分类,<年代vghe我ght=”10。7375" id="M160" style="vertical-align:-0.13794pt;width:31.1625px;" version="1.1" viewbox="0 0 31.1625 10.7375" width="31.1625" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba的<年代vghe我ght=”10。7375" id="M164" style="vertical-align:-0.13794pt;width:31.1625px;" version="1.1" viewbox="0 0 31.1625 10.7375" width="31.1625" xmlns="http://www.w3.org/2000/svg">
垃圾邮件消息<年代vghe我ght=”11。375" id="M174" style="vertical-align:-3.49493pt;width:26.025px;" version="1.1" viewbox="0 0 26.025 11.375" width="26.025" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba在这个阶段聚类后的消息和解决问题(<一个href=”#EEq8">8一个>)- - - - - -(
gydF4y2Ba句子的代表性定义为它们之间的相似性度量和相应的集群重心,即少句子和相应的聚类质心之间的欧几里得距离意味着句子更具代表性。包括句子总结,他们范围以升序排序根据相似性措施相应的聚类质心。在本文中,每个集群由主题关闭消息。包含许多句子和一些消息,因此,形成集群的主要内容。其他主题可以提到不久完成的主要课题。因此,大量的句子在不同的集群是不同的。这种方法允许集群的最大覆盖的主要内容,并避免冗余。
一般来说,句子包括汇总的数量取决于压缩因子。压缩因子<年代vghe我ght=”13。3”我d="M181" style="vertical-align:-5.03984pt;width:33.837502px;" version="1.1" viewbox="0 0 33.837502 13.3" width="33.837502" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba考虑上述的数量代表的句子<年代vghe我ght=”16。237499" id="M185" style="vertical-align:-4.74141pt;width:19.4px;" version="1.1" viewbox="0 0 19.4 16.237499" width="19.4" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba摘要聚类的垃圾短信收集形式化的问题。之间的相似性准则函数是一个最大化消息集群,这被定义为<年代vghe我ght=”10。7375" id="M192" style="vertical-align:-0.13794pt;width:8.6000004px;" version="1.1" viewbox="0 0 8.6000004 10.7375" width="8.6000004" xmlns="http://www.w3.org/2000/svg">
gydF4y2Ba虽然有很多工作提供电子邮件进入垃圾邮件或nonspam分类方法,没有一个以前的科学研究和实验研究显示,分类垃圾短信分成主题组。在这种情况下,它是决定实验这个问题在未来的作品,尤其是显示效率本文中使用的聚类方法和遗传算法与他人相比。
gydF4y2Ba作者想表达他们的感谢匿名评论者的非常有用的意见和建议。
引用
- 摩天的研究,“垃圾邮件是2009年压平我们的成本预测,”<一个t一个rget=”_blank" href="http://www.ferris.com/2009/01/28/cost-of-spam-is-flattening-our-2009-predictions/">http://www.ferris.com/2009/01/28/cost -的-垃圾邮件是我们- 2009 predictions/ -压扁一个>。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Cost%20of%20spam%20is%20flattening–our%202009%20predictions&author= Ferris Research" target="_blank">谷歌学术搜索一个>年代p一个n>
- c·雷·h·亨特,“紧缩净:回顾当前和下一代垃圾邮件过滤工具,”<我>电脑和安全我>,25卷,不。8,566 - 578年,2006页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1016/j.cose.2006.06.001">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Tightening%20the%20net:%20a%20review%20of%20current%20and%20next%20generation%20spam%20filtering%20tools&author=C. Ray &author=H. Hunt&publication_year=2006" target="_blank">谷歌学术搜索一个>年代p一个n>
- h . Wen-Feng和c . Te-Min“增量基于集群的垃圾邮件过滤方法,”<我>专家系统与应用程序我>,34卷,不。3、1599 - 1608年,2008页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1016/j.eswa.2007.01.018">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=An%20incremental%20cluster-based%20approach%20to%20spam%20filtering&author=H. Wen-Feng &author=C. Te-Min&publication_year=2008" target="_blank">谷歌学术搜索一个>年代p一个n>
- m . l .唱歌、s . k .盾和s . p .金正日“垃圾邮件检测使用特征选择和参数优化,”<我>诉讼的第四届国际会议上复杂,智能软件密集型系统,(CISIS 10)我>,页883 - 888年,克拉科夫,波兰,2010年2月。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/CISIS.2010.116">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Spam%20detection%20using%20feature%20selection%20and%20parameters%20optimization&author=M. L. Sang&author=S. K. Dong&author=&author=S. P. Jong" target="_blank">谷歌学术搜索一个>年代p一个n>
- f·s·Mehrnoush和b·哈米德”垃圾邮件检测使用基于聚类的动态加权投票,”<我>第二届国际智能信息技术应用研讨会上,(IITA ' 08)我>,第126 - 122页,上海,中国,2008年12月。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/IITA.2008.140">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Spam%20detection%20using%20dynamic%20weighted%20voting%20based%20on%20clustering&author=F. S. Mehrnoush &author=B. Hamid" target="_blank">谷歌学术搜索一个>年代p一个n>
- 美国Minoru和Sh。),“垃圾邮件检测使用文本聚类”<我>虚拟世界的国际会议(CW 05)我>新加坡,页316 - 319年,2005年11月。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/CW.2005.83">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Spam%20detection%20using%20text%20clustering&author=S. Minoru &author=Sh. Hiroyuki" target="_blank">谷歌学术搜索一个>年代p一个n>
- c .保罗l . Clotilde s佩德罗et al .,“共生为个性化的垃圾邮件过滤,数据挖掘”<我>程序的Web智能和智能代理技术国际会议上,(IEEE / WIC / ACM)我>,第156 - 149页,2009年。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Symbiotic%20data%20mining%20for%20personalized%20spam%20filtering&author=C. Paulo&author=L. Clotilde&author=S. Pedro et al." target="_blank">谷歌学术搜索一个>年代p一个n>
- Kh。艾哈迈德,“基于内容的垃圾邮件过滤技术的概述,<我>我nfor米一个t我c一个没有,卷。31日。3、269 - 277年,2007页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=An%20overview%20of%20content-based%20spam%20filtering%20techniques&author=Kh. Ahmed&publication_year=2007" target="_blank">谷歌学术搜索一个>年代p一个n>
- s . Nazirova”机制分类的文本在垃圾收集的垃圾短信模式基地,”<我>诉讼第三控制论和信息问题国际会议上,10 (PCI)我>,2卷,第209 - 206页,2010年。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Mechanism%20of%20classification%20of%20text%20spam%20messages%20collected%20in%20spam%20pattern%20bases&author=S. Nazirova" target="_blank">谷歌学术搜索一个>年代p一个n>
- w·劳伦“垃圾邮件战争”,<我>ACM的通信我>,46卷,不。8,136年,页2003。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1145/859670.859703">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Spam%20wars&author=W. Lauren&publication_year=2003" target="_blank">谷歌学术搜索一个>年代p一个n>
- Pawel和m . Jacek”打击垃圾邮件战争:re-mailer方法与限制性混叠,”<我>ACM网上交易技术我>,4卷,不。1、外墙面,2004页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Fighting%20the%20spam%20wars:%20a%20re-mailer%20approach%20with%20restrictive%20aliasing&author=G. Pawel &author=M. Jacek&publication_year=2004" target="_blank">谷歌学术搜索一个>年代p一个n>
- l .浮h . Mo-Han g·帕维尔,“社区垃圾信息散布者的行为,”<一个t一个rget=”_blank" href="http://web.media.mit.edu/~fulu/ClusteringSpammers.pdf">http://web.media.mit.edu/ ~浮/ ClusteringSpammers.pdf一个>。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=The%20community%20behavior%20of%20spammers&author=L. Fulu&author=H. Mo-Han&author=&author=G. Pawel" target="_blank">谷歌学术搜索一个>年代p一个n>
- k . s, m . Kliger y, p . j .伍尔夫和a . o .英雄,“通过光谱集群揭示社交网络的垃圾邮件发送者,”<我>《IEEE国际会议上沟通,(ICC ' 09)我>20.09年6月,德国德累斯顿。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/ICC.2009.5199418">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Revealing%20social%20networks%20of%20spammers%20through%20spectral%20clustering&author=K. S. Xu&author=M. Kliger&author=Y. Chen&author=P. J. Woolf&author=&author=A. O. Hero" target="_blank">谷歌学术搜索一个>年代p一个n>
- k . s, m . Kliger y . Chen等人“跟踪垃圾邮件发送者的社区进化聚类,<一个t一个rget=”_blank" href="http://www.eecs.umich.edu/~xukevin/xu_spam_icml_2010_sna.pdf">http://www.eecs.umich.edu/ ~ xukevin / xu_spam_icml_2010_sna.pdf一个>。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Tracking%20communities%20of%20spammers%20by%20evolutionary%20clustering&author=K. S. Xu&author=M. Kliger&author=Y. Chen et al." target="_blank">谷歌学术搜索一个>年代p一个n>
- g .索尔顿海<我>动态图书馆信息系统我>米尔,莫斯科,俄罗斯,1979年。<年代p一个ncl一个年代年代=”refl我nks">
- g·索尔顿海和c·巴克利,“Term-weighting方法在自动文本检索,”<我>信息处理和管理我>,24卷,不。5,513 - 523年,1988页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Term-weighting%20approaches%20in%20automatic%20text%20retrieval&author=G. Salton &author=C. Buckley&publication_year=1988" target="_blank">谷歌学术搜索一个>年代p一个n>
- 美国诉Mochenov、a . m . Blednov和美国a . Lugovskikh“文本的向量表示信息,”<我>程序的国际科学会议材料我>,第139 - 131页,2006年。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Vector%20representation%20of%20the%20textual%20information&author=S. V. Mochenov&author=A. M. Blednov&author=&author=U. A. Lugovskikh" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和r . m . Alyguliev”,通过句子聚类文本文档自动摘要,”<我>自动化和信息科学杂志》上我>,40卷,不。9日,53 - 63年,2008页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Automatic%20text%20documents%20summarization%20through%20sentences%20clustering&author=R. M. Alguliev &author=R. M. Alyguliev&publication_year=2008" target="_blank">谷歌学术搜索一个>年代p一个n>
- Vishal和g . g . Si Lehal”,文本挖掘技术和应用的调查。”<我>新兴技术在网络情报杂志》上我>,1卷,不。1、60 - 76、2009页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=A%20survey%20of%20text%20mining%20techniques%20and%20applications&author=G. Vishal &author=G. Si Lehal&publication_year=2009" target="_blank">谷歌学术搜索一个>年代p一个n>
- 李x n .你们”,监督聚类和分类算法与混合变量、挖掘数据”<我>我EEE系统,人,控制论的一部分我>,36卷,不。2、396 - 406年,2006页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/TSMCA.2005.853501">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=A%20supervised%20clustering%20and%20classification%20algorithm%20for%20mining%20data%20with%20mixed%20variables&author=X. Li &author=N. Ye&publication_year=2006" target="_blank">谷歌学术搜索一个>年代p一个n>
- t·李,“集群二进制数据的统一视图,”<我>机器学习我>,卷62,不。3、199 - 215年,2006页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1007/s10994-005-5316-9">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=A%20unified%20view%20on%20clustering%20binary%20data&author=T. Li&publication_year=2006" target="_blank">谷歌学术搜索一个>年代p一个n>
- j . Grabmeier和a·鲁道夫”技术数据挖掘中聚类算法”,<我>数据挖掘和知识发现我>》第六卷,没有。4、303 - 360年,2002页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1023/A:1016308404627">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Techniques%20of%20cluster%20algorithms%20in%20data%20mining&author=J. Grabmeier &author=A. Rudolph&publication_year=2002" target="_blank">谷歌学术搜索一个>年代p一个n>
- m . Halkidi y Batistakis, m . Vazirgiannis”聚类验证技术。”<我>智能信息系统杂志》上我>,17卷,不。2 - 3、107 - 145年,2001页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1023/A:1012801612483">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=On%20clustering%20validation%20techniques&author=M. Halkidi&author=Y. Batistakis&author=&author=M. Vazirgiannis&publication_year=2001" target="_blank">谷歌学术搜索一个>年代p一个n>
- d . r . Tauritz j . n .角,即g . Sprinkhuizen-Kuyper“使用进化计算自适应信息过滤,”<我>信息科学我>,卷122,不。2、121 - 140年,2000页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1016/S0020-0255(99)00123-1">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Adaptive%20Information%20Filtering%20using%20evolutionary%20computation&author=D. R. Tauritz&author=J. N. Kok&author=&author=I. G. Sprinkhuizen-Kuyper&publication_year=2000" target="_blank">谷歌学术搜索一个>年代p一个n>
- j . Lijuan f .力平,“文本分类基于蚁群优化”<我>学报》第三届国际会议信息和计算,(ICIC 10)我>姜愫,页229 - 232年,中国,2010年6月。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/ICIC.2010.242">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Text%20classification%20based%20on%20Ant%20Colony%20Optimization&author=J. Lijuan &author=F. Liping" target="_blank">谷歌学术搜索一个>年代p一个n>
- e . r . Hruschka r . j . g . b . Campello A . A . Freitas和卡瓦略·A·c·p·l·f·“进化算法聚类的调查。”<我>我EEE系统,人与控制论部分C我>,39卷,不。2、133 - 155年,2009页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/TSMCC.2008.2007252">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=A%20survey%20of%20evolutionary%20algorithms%20for%20clustering&author=E. R. Hruschka&author=R. J. G. B. Campello&author=A. A. Freitas&author=&author=A. C. P. L. F. de Carvalho&publication_year=2009" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和r . m . Aliguliyev“快速遗传算法求解聚类的文本文档的问题,“<我>人工智能我>,3卷,第707 - 698页,2005年(俄罗斯)。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Fast%20genetic%20algorithm%20for%20solving%20of%20the%20clustering%20problem%20of%20text%20documents&author=R. M. Alguliev &author=R. M. Aliguliyev&publication_year=2005" target="_blank">谷歌学术搜索一个>年代p一个n>
- r·格米n . Sulaiman h·易卜拉欣et al .,“回顾:准确性使用遗传算法优化集群合奏中,“<我>人工智能审查我>,35卷,不。4、287 - 318年,2011页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=A%20review:%20accuracy%20optimization%20in%20clustering%20ensembles%20using%20genetic%20algorithms&author=R. Ghaemi&author=N. Sulaiman&author=H. Ibrahim et al.&publication_year=2011" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和r . m . Aliguliyev”,一个新的文本文档总结方法和评价三个方面的分类结果,“<我>电信我>,3卷,页7 - 16,2006(俄罗斯)。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=A%20new%20summarization%20method%20of%20text%20documents%20and%20evaluation%20of%20classification%20result%20in%20three%20aspects&author=R. M. Alguliev &author=R. M. Aliguliyev&publication_year=2006" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和r . m . Aliguliyev“有效的文本文档的总结方法,”<我>学报IEEE /每各月ACM国际会议网络情报,(WI 05)我>20.05年9月,页264 - 271。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1109/WI.2005.57">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=Effective%20summarization%20method%20of%20text%20documents&author=R. M. Alguliev &author=R. M. Aliguliyev" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alyguliyev“multidocument总结的两级无监督方法,”<我>自动控制和计算机科学我>,43卷,不。5,276 - 284年,2009页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.3103/S0146411609050083">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=The%20two-stage%20unsupervised%20approach%20to%20multidocument%20summarization&author=R. M. Alyguliyev&publication_year=2009" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和s . a . Nazirova”机制的形成和实现的反垃圾邮件政策,”<我>电信我>》12卷,中山,2009页。(俄罗斯)。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Mechanism%20of%20forming%20and%20realization%20of%20anti-spam%20policy&author=R. M. Alguliev &author=S. A. Nazirova&publication_year=2009" target="_blank">谷歌学术搜索一个>年代p一个n>
- l . Kyung-Chan k Seung-Shik h . Kwang-Soo,“文本分类术语权重方法,”<我>在计算机科学的课堂讲稿我>卷,3689年,第678 - 673页,2005年。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=A%20term%20weighting%20approach%20for%20text%20categorization&author=L. Kyung-Chan&author=K. Seung-Shik&author=&author=H. Kwang-Soo&publication_year=2005" target="_blank">谷歌学术搜索一个>年代p一个n>
- g . Patane和m . Russo”比较模糊和集群技术,”<我>《模糊系统和智能技术的进步,99年(公司)我>,第184 - 176页,1999年。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Comparisons%20between%20fuzzy%20and%20hard%20clustering%20techniques&author=G. Patanè &author=M. Russo" target="_blank">谷歌学术搜索一个>年代p一个n>
- n . n . Glibovec和s . a . Medvid”,“遗传算法用于解决调度问题,”<我>控制论和系统分析我>,39卷,不。1,第90 - 81页,2003。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Genetic%20algorithms%20used%20to%20solve%20scheduling%20problems&author=N. N. Glibovec &author=S. A. Medvid'&publication_year=2003" target="_blank">谷歌学术搜索一个>年代p一个n>
- t . Witkovski s Elzway, a . Antchak”设计遗传算法的主要业务为生产调度、”<我>自动化和信息科学杂志》上我>,35卷,不。12日- 58,2003页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Designing%20of%20the%20main%20operations%20of%20genetic%20algorithms%20for%20production%20scheduling&author=T. Witkovski&author=S. Elzway&author=&author=A. Antchak&publication_year=2003" target="_blank">谷歌学术搜索一个>年代p一个n>
- r . m . Alguliev和r . m . Alyguliev遗传方法最优分配的任务在分布式系统中,“<我>电信和无线电工程我>,卷64,不。2、97 - 108年,2005页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://doi.org/10.1615/TelecomRadEng.v64.i2.20">出版商的网站一个><年代p一个ncl一个年代年代="sep">|年代p一个n><一个href=”https://scholar.google.com/scholar_lookup?title=A%20genetic%20approach%20to%20quasi-optimal%20assignment%20of%20tasks%20in%20the%20distributed%20system&author=R. M. Alguliev &author=R. M. Alyguliev&publication_year=2005" target="_blank">谷歌学术搜索一个>年代p一个n>
- a·l·奥尔森“惩罚函数和背包问题,”<我>学报第一进化计算IEEE会议我>1994年6月,页554 - 558。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=Penalty%20functions%20and%20the%20knapsack%20problem&author=A. L. Olsen" target="_blank">谷歌学术搜索一个>年代p一个n>
- Z.-J。李,S.-F。苏,彭译葶。李et al .,“启发式遗传算法求解资源分配问题,“<我>知识和信息系统我>,5卷,不。4、503 - 511年,2003页。<年代p一个ncl一个年代年代=”refl我nks">视图:<一个href=”http年代://scholar.google.com/scholar_lookup?title=A%20heuristic%20genetic%20algorithm%20for%20solving%20resource%20allocation%20problems&author=Z.-J. Lee&author=S.-F. Su&author=C.-Y. Lee et al.&publication_year=2003" target="_blank">谷歌学术搜索一个>年代p一个n>
版权
gydF4y2Ba版权©2011 Rasim m . Alguliev等。这是一个开放的分布式下文章<一个rel=”l我cen年代e”href="http://creativecommons.org/licenses/by/3.0/">知识共享归属许可一个>,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。