TY -的A2 -棕褐色,清盟——朱Hui-Juan盟——朱zheng wei盟——江Tong-Hai AU - Cheng Li AU -史,Wei-Lei盟——周,Xi盟——赵,风扇AU - Ma, Bo PY - 2018 DA - 2018/01/28 TI -一个基于类型的屏蔽技术高效的实体解析在大规模数据SP - 2094696六世- 2018 AB -在数据集成,实体解析是提高数据质量的一项重要技术。现有的研究通常假设目标数据集只包含字符串类型的数据,并且使用单一的相似性度量。对于较大的高维数据集,需要使用传统的块或窗口技术来验证冗余信息。在这项工作中,我们提出了一种新的er分解方法,使用了一种混合方法,包括基于类型的多块、变化的窗口大小和更灵活的相似性度量。在新的ER工作流中,我们通过约束冗余属性和匹配似然来减少实体对的搜索空间。我们开发了我们提出的方法的参考实现,并使用来自一个物联网项目的真实数据集验证其性能。我们使用五个标准指标来评估数据处理系统,包括有效性、效率、准确性、召回率和准确度。实验结果表明,该方法是一种很有前景的实体解析方法,可用于大数据集的真实数据清理。SN - 1687-725X UR - https://doi.org/10.1155/2018/2094696 DO - 10.1155/2018/2094696 JF - Journal of Sensors PB - Hindawi KW - ER -