TY-JOURA2-Ali、ShaukatAU-Amazal、HoudaAU-Kissi、MohamedPY-2021DA-20212021/04/19TI-文本分类新大数据特征选择方法文本特征选择用最相关特征表示文档这一过程可缩小数据集规模并改进机器学习算法性能多位研究人员专注于开发高效FS技术不过,大多数拟议方法评价小数据集并使用单机验证文本数据维度提高后,传统FS方法必须改进并并行处理文本大数据本文建议分布式特征选择方法基于互信方法,该方法广泛用于模式识别和机器学习MI的缺陷在于它忽略特征选择中术语的频率提案引入分布式FS方法,即基于术语频度和互信技术的最大时段多维信息提高选定特征质量拟方法使用MapReduce编程模型在Hadeop实施MTF-MI有效性表现为数项文本分类实验使用三种数据集多名奈夫贝叶斯分类器通过一系列测试结果显示,拟议的MTF-MI方法提高分类结果,而在宏F1和微F1测量方面则比四种最先进方法提高分类结果SN-1058-9244UR-https://doi.org/101155/2021/6645345DO-10.1155/2021/6645345JF-科学编程PB-HindawiKW-ER