太原科技大学学报

2020, v.41;No.182(06) 440-448

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Archive) | 高级检索(Advanced Search)

一种基于Spark的高效增量频繁模式挖掘算法
An Efficient Spark-based Approach for Incremental Frequent Patterns Mining

荀亚玲,孙娇娇,毕慧敏

摘要(Abstract):

大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战。尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销。针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载。大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集。

关键词(KeyWords): 频繁模式挖掘;增量数据挖掘;Spark;并行计算;负载均衡

Abstract:

Keywords:

基金项目(Foundation): 国家青年科学基金(61602335);; 山西省自然科学基金(201901D211302);; 太原科技大学博士科研启动基金(20172017)

作者(Author): 荀亚玲,孙娇娇,毕慧敏

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享