- 蔡江辉;杨雨晴;
当今世界,数据正以前所未有的速度爆炸式增长,海量的数据成了各行各样重要的战略资源。自2008年大数据产生以来,与其相关的众多领域取得了一些令人瞩目的成就,同时也面临着诸多挑战。大数据分析及处理作为大数据领域最核心的问题,一直以来是国内外关注的焦点。为了让读者更加深入了解大数据分析及处理的基本理论并深入认识所面临的诸多挑战,在充分调研大数据分析及处理解相关技术的基础上给出了大数据分析及处理综述。文中首先简单介绍了大数据的内涵和特性,给出了大数据分析及处理的技术体系;然后从文本大数据分析与挖掘、网路大数据分析与挖掘、多媒体大数据分析与挖掘以及移动大数据分析与挖掘四个方面重点概述了国内外大数据分析及处理的研究现状;最后,总结分析了目前大数据分析及处理面临的主要问题和挑战。
2020年06期 v.41;No.182 417-424页 [查看摘要][在线阅读][下载 1255K] [下载次数:3717 ] |[网刊下载次数:0 ] |[引用频次:36 ] |[阅读次数:0 ] - 蔡江辉;杨雨晴;
当今世界,数据正以前所未有的速度爆炸式增长,海量的数据成了各行各样重要的战略资源。自2008年大数据产生以来,与其相关的众多领域取得了一些令人瞩目的成就,同时也面临着诸多挑战。大数据分析及处理作为大数据领域最核心的问题,一直以来是国内外关注的焦点。为了让读者更加深入了解大数据分析及处理的基本理论并深入认识所面临的诸多挑战,在充分调研大数据分析及处理解相关技术的基础上给出了大数据分析及处理综述。文中首先简单介绍了大数据的内涵和特性,给出了大数据分析及处理的技术体系;然后从文本大数据分析与挖掘、网路大数据分析与挖掘、多媒体大数据分析与挖掘以及移动大数据分析与挖掘四个方面重点概述了国内外大数据分析及处理的研究现状;最后,总结分析了目前大数据分析及处理面临的主要问题和挑战。
2020年06期 v.41;No.182 417-424页 [查看摘要][在线阅读][下载 1255K] [下载次数:3717 ] |[网刊下载次数:0 ] |[引用频次:36 ] |[阅读次数:0 ] - 周永祥;杨海峰;蔡江辉;尚晓群;
恒星光谱分类是天文数据处理的重要环节,由于天文望远镜的改进与发展,人类已获取海量的光谱数据,在如此大的数据量下,光谱的快速分类识别显得尤为重要。聚类技术是实现目标分类的常用方法之一,而聚类中心点的选择是影响聚类精度和效率的重要因素,基于此提出一种快速确定聚类中心的光谱聚类方法(Fast Determination of Clustering Center)(FDCC).首先预处理提取出给定发射线的置信度信息,将其作为聚类方法的数据,从而实现对光谱数据的降维;计算所有数据的密度和距离,将密度和距离组合成评判值,利用聚类中心的密度高且相互距离远的特点从评判值中找出奇异点;最后利用真正中心点的密度和距离不应相差过大的特点从奇异点中得到聚类中心,再根据聚类中心使用K近邻得到所有的簇。该研究使用LAMOST DR5的光谱数据进行了聚类测试,实验结果表明本文提出的快速确定聚类中心的光谱聚类方法(FDCC)能够有效地减少运行时间,并且较于其他的算法,具有更好的聚类结果。
2020年06期 v.41;No.182 425-432页 [查看摘要][在线阅读][下载 5849K] [下载次数:113 ] |[网刊下载次数:0 ] |[引用频次:5 ] |[阅读次数:0 ] - 周永祥;杨海峰;蔡江辉;尚晓群;
恒星光谱分类是天文数据处理的重要环节,由于天文望远镜的改进与发展,人类已获取海量的光谱数据,在如此大的数据量下,光谱的快速分类识别显得尤为重要。聚类技术是实现目标分类的常用方法之一,而聚类中心点的选择是影响聚类精度和效率的重要因素,基于此提出一种快速确定聚类中心的光谱聚类方法(Fast Determination of Clustering Center)(FDCC).首先预处理提取出给定发射线的置信度信息,将其作为聚类方法的数据,从而实现对光谱数据的降维;计算所有数据的密度和距离,将密度和距离组合成评判值,利用聚类中心的密度高且相互距离远的特点从评判值中找出奇异点;最后利用真正中心点的密度和距离不应相差过大的特点从奇异点中得到聚类中心,再根据聚类中心使用K近邻得到所有的簇。该研究使用LAMOST DR5的光谱数据进行了聚类测试,实验结果表明本文提出的快速确定聚类中心的光谱聚类方法(FDCC)能够有效地减少运行时间,并且较于其他的算法,具有更好的聚类结果。
2020年06期 v.41;No.182 425-432页 [查看摘要][在线阅读][下载 5849K] [下载次数:113 ] |[网刊下载次数:0 ] |[引用频次:5 ] |[阅读次数:0 ] - 邓建国;张素兰;
图像标注作为有监督学习的一个典型应用,一直深受研究者的关注。图像标注模型中度量图像样本损失函数的合适选取,对提升图像标注模型的预测准确率,具有重要的指导作用。从分析损失函数对模型预测性能影响的角度出发,首先对基于神经网络的单标签图像标注方法,在MNIST数据集下,通过更换神经网络模型的损失函数,对比研究了有监督学习中常用损失函数度量样本的性能差异,然后给出了一种新的损失函数,最后实验验证了该损失函数的有效性。为有监督学习算法中损失函数的有效构造,提高图像标注性能提供了一种思路。
2020年06期 v.41;No.182 433-439+448页 [查看摘要][在线阅读][下载 5235K] [下载次数:108 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ] - 邓建国;张素兰;
图像标注作为有监督学习的一个典型应用,一直深受研究者的关注。图像标注模型中度量图像样本损失函数的合适选取,对提升图像标注模型的预测准确率,具有重要的指导作用。从分析损失函数对模型预测性能影响的角度出发,首先对基于神经网络的单标签图像标注方法,在MNIST数据集下,通过更换神经网络模型的损失函数,对比研究了有监督学习中常用损失函数度量样本的性能差异,然后给出了一种新的损失函数,最后实验验证了该损失函数的有效性。为有监督学习算法中损失函数的有效构造,提高图像标注性能提供了一种思路。
2020年06期 v.41;No.182 433-439+448页 [查看摘要][在线阅读][下载 5235K] [下载次数:108 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ] - 荀亚玲;孙娇娇;毕慧敏;
大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战。尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销。针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载。大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集。
2020年06期 v.41;No.182 440-448页 [查看摘要][在线阅读][下载 5665K] [下载次数:130 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 荀亚玲;孙娇娇;毕慧敏;
大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战。尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销。针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载。大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集。
2020年06期 v.41;No.182 440-448页 [查看摘要][在线阅读][下载 5665K] [下载次数:130 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 毛鑫;蔡江辉;张素兰;
传统的图像分割相似性度量方法,存在片面考虑图像像素值的大小,或仅考虑像素点间的距离等局限性。同时大多数图像,由于光线角度、背景干扰等原因,需用精度更高的计算方法去除噪声点。为提高图像分割算法的性能,综合考虑图像像素点的像素值大小和像素点间的距离,提出了一种基于加权切比雪夫距离的图像分割算法(Image Segmentation based on Weighted Chebyshev Distance,ISWCD).首先将图像梯度信息和邻域信息结合使用阈值法去除噪声,从对应图像的RGB空间像素矩阵中提取特征向量,然后计算加权切比雪夫距离,从而得出相似矩阵,最终利用谱聚类实现图像分割。在BSDS300和VOC2012两个数据集上进行实验,结果表明ISWCD算法性能优于传统图像分割算法。
2020年06期 v.41;No.182 449-455页 [查看摘要][在线阅读][下载 1813K] [下载次数:264 ] |[网刊下载次数:0 ] |[引用频次:13 ] |[阅读次数:0 ] - 毛鑫;蔡江辉;张素兰;
传统的图像分割相似性度量方法,存在片面考虑图像像素值的大小,或仅考虑像素点间的距离等局限性。同时大多数图像,由于光线角度、背景干扰等原因,需用精度更高的计算方法去除噪声点。为提高图像分割算法的性能,综合考虑图像像素点的像素值大小和像素点间的距离,提出了一种基于加权切比雪夫距离的图像分割算法(Image Segmentation based on Weighted Chebyshev Distance,ISWCD).首先将图像梯度信息和邻域信息结合使用阈值法去除噪声,从对应图像的RGB空间像素矩阵中提取特征向量,然后计算加权切比雪夫距离,从而得出相似矩阵,最终利用谱聚类实现图像分割。在BSDS300和VOC2012两个数据集上进行实验,结果表明ISWCD算法性能优于传统图像分割算法。
2020年06期 v.41;No.182 449-455页 [查看摘要][在线阅读][下载 1813K] [下载次数:264 ] |[网刊下载次数:0 ] |[引用频次:13 ] |[阅读次数:0 ] - 马洋;赵旭俊;苏建花;席婷婷;
数据集存在多样性,导致样本点的密度难以有效度量且效率低下,多数基于密度的异常检测方法局限于局部密度的计算,使其无法适应复杂数据库的发展需求,因此提出一种基于核密度估计的离群数据挖掘方法OMDE。首先,为估计并度量样本点的密度,提出一种特定核函数,该函数更适合于估计样本的局部密度;然后提出了一种基于均值的邻域密度估计方法来度量样本点邻域的密度,同传统的邻域密度估计方法相比,它对邻域大小具有更强的鲁棒性。在此基础上,提出一种基于离群因子估计的离群数据挖掘算法,结合多尺度邻域的信息,对样本的异常因子进行局部和全局的细化,实现了复杂数据集上的离群检测。最后,采用人工合成数据集分析验证了参数对算法性能的影响,并通过3组不同的真实数据集,将OMDE与相关算法进行了比较,实验结果显示,OMDE算法在效率和准确性两个方面具有较大的优势。
2020年06期 v.41;No.182 456-462+469页 [查看摘要][在线阅读][下载 5958K] [下载次数:306 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:0 ] - 马洋;赵旭俊;苏建花;席婷婷;
数据集存在多样性,导致样本点的密度难以有效度量且效率低下,多数基于密度的异常检测方法局限于局部密度的计算,使其无法适应复杂数据库的发展需求,因此提出一种基于核密度估计的离群数据挖掘方法OMDE。首先,为估计并度量样本点的密度,提出一种特定核函数,该函数更适合于估计样本的局部密度;然后提出了一种基于均值的邻域密度估计方法来度量样本点邻域的密度,同传统的邻域密度估计方法相比,它对邻域大小具有更强的鲁棒性。在此基础上,提出一种基于离群因子估计的离群数据挖掘算法,结合多尺度邻域的信息,对样本的异常因子进行局部和全局的细化,实现了复杂数据集上的离群检测。最后,采用人工合成数据集分析验证了参数对算法性能的影响,并通过3组不同的真实数据集,将OMDE与相关算法进行了比较,实验结果显示,OMDE算法在效率和准确性两个方面具有较大的优势。
2020年06期 v.41;No.182 456-462+469页 [查看摘要][在线阅读][下载 5958K] [下载次数:306 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:0 ] - 胡立华;马瑞;张名师;左威健;
针对基于蚁群算法的智能小车在复杂环境下易陷入局部最优的路径规划问题,提出一种改进蚁群算法的全局动态路径规划方法。该方法依据智能小车行驶的环境信息,首先通过栅格法进行环境建模,以初始信息素的不均匀分配方法代替信息素的均匀分配方式,避免了经典算法中蚂蚁走回路的问题;其次调整启发函数,为蚂蚁后续的路径选择提供信息;然后改进蚁群算法中局部信息素和全局信息素的更新规则,进一步加快了路径规划算法的收敛速度;最后在转移概率中增加邻域安全因子,提高路径规划算法的效率;最终以智能小车为对象,在设置不同复杂度和障碍物规模的情况下,对智能小车进行全局动态路径规划的仿真实验,实验结果证明本方法具有实时性与高效性。
2020年06期 v.41;No.182 463-469页 [查看摘要][在线阅读][下载 3242K] [下载次数:759 ] |[网刊下载次数:0 ] |[引用频次:20 ] |[阅读次数:0 ] - 胡立华;马瑞;张名师;左威健;
针对基于蚁群算法的智能小车在复杂环境下易陷入局部最优的路径规划问题,提出一种改进蚁群算法的全局动态路径规划方法。该方法依据智能小车行驶的环境信息,首先通过栅格法进行环境建模,以初始信息素的不均匀分配方法代替信息素的均匀分配方式,避免了经典算法中蚂蚁走回路的问题;其次调整启发函数,为蚂蚁后续的路径选择提供信息;然后改进蚁群算法中局部信息素和全局信息素的更新规则,进一步加快了路径规划算法的收敛速度;最后在转移概率中增加邻域安全因子,提高路径规划算法的效率;最终以智能小车为对象,在设置不同复杂度和障碍物规模的情况下,对智能小车进行全局动态路径规划的仿真实验,实验结果证明本方法具有实时性与高效性。
2020年06期 v.41;No.182 463-469页 [查看摘要][在线阅读][下载 3242K] [下载次数:759 ] |[网刊下载次数:0 ] |[引用频次:20 ] |[阅读次数:0 ]
- 张永豪;智泽英;王浩然;荆雪君;
谐波电流对电网的影响日益严重,准确检测谐波电流是抑制谐波和补偿无功功率的一项关键技术。针对传统的谐波电流检测方法计算过程复杂和在电压畸变下无法获得准确的相位信息的情况下,对基于双二阶广义积分器的锁相环的基本原理进行分析与建模,代替传统锁相环。并结合单位功率因数谐波检测方法,提出了一种改进型谐波电流检测方法,实现了在电压畸变的情况下仍能快速准确地实现对补偿量的检测。运用Matlab软件分别对传统的UPF检测方法与基于双二阶广义积分器锁相环的UPF方法在电压畸变的情况下进行对比研究,结果表明传统的UPF检测方法在电压畸变的环境下电流畸变率为13.81%,改进后的UPF检测方法的电流畸变率为3.12%,后者与前者比较,其受电压畸变影响较小,可以准确检测出负载电流的谐波及无功分量。
2020年06期 v.41;No.182 470-474+481页 [查看摘要][在线阅读][下载 5353K] [下载次数:60 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 张永豪;智泽英;王浩然;荆雪君;
谐波电流对电网的影响日益严重,准确检测谐波电流是抑制谐波和补偿无功功率的一项关键技术。针对传统的谐波电流检测方法计算过程复杂和在电压畸变下无法获得准确的相位信息的情况下,对基于双二阶广义积分器的锁相环的基本原理进行分析与建模,代替传统锁相环。并结合单位功率因数谐波检测方法,提出了一种改进型谐波电流检测方法,实现了在电压畸变的情况下仍能快速准确地实现对补偿量的检测。运用Matlab软件分别对传统的UPF检测方法与基于双二阶广义积分器锁相环的UPF方法在电压畸变的情况下进行对比研究,结果表明传统的UPF检测方法在电压畸变的环境下电流畸变率为13.81%,改进后的UPF检测方法的电流畸变率为3.12%,后者与前者比较,其受电压畸变影响较小,可以准确检测出负载电流的谐波及无功分量。
2020年06期 v.41;No.182 470-474+481页 [查看摘要][在线阅读][下载 5353K] [下载次数:60 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:0 ] - 贾琼;乔建华;
针对无线传感器网络的节点因能量消耗不均导致网络使用寿命缩短的问题,提出一种新的无线传感器网络分区路由协议。该协议首先结合压缩感知理论特征,将冗余数据进行处理,其次通过分区对监控区域进行划分,每个分区中节点生成一条以汇聚节点为终点的路径,使用精英蚁群算法找到节省网络能耗的最短路径。通过与随机游走算法的仿真比较,精英蚁群算法能更直接快速的找到每个网格中的最短路径;与随机分簇投影路由协议相比较,所提的分区路由协议使网络寿命延长,剩余存活节点在网络运行各时期均更为优异,网络性能良好,延长了整个网络使用寿命。
2020年06期 v.41;No.182 475-481页 [查看摘要][在线阅读][下载 7034K] [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:0 ] - 贾琼;乔建华;
针对无线传感器网络的节点因能量消耗不均导致网络使用寿命缩短的问题,提出一种新的无线传感器网络分区路由协议。该协议首先结合压缩感知理论特征,将冗余数据进行处理,其次通过分区对监控区域进行划分,每个分区中节点生成一条以汇聚节点为终点的路径,使用精英蚁群算法找到节省网络能耗的最短路径。通过与随机游走算法的仿真比较,精英蚁群算法能更直接快速的找到每个网格中的最短路径;与随机分簇投影路由协议相比较,所提的分区路由协议使网络寿命延长,剩余存活节点在网络运行各时期均更为优异,网络性能良好,延长了整个网络使用寿命。
2020年06期 v.41;No.182 475-481页 [查看摘要][在线阅读][下载 7034K] [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:0 ] - 程燕兵;韩如成;
针对电动汽车串联锂离子电池组多次充放电后导致的电量不一致问题,提出一种能够快速有效的实现锂电池组均衡的方法。该均衡方案采用改进的单端反激电路为主电路,以双层开关臂作为选通单体电池的通道,在电池组充电时能够转移电压最高的单体能量,在电池组放电时能够补充电压最低的单体能量,最终实现整个电池组充放电的自由均衡。文章对均衡拓扑结构和原理进行了分析,提出相应的均衡策略,并通过搭建simulink仿真实验证明了该方法的可行性。
2020年06期 v.41;No.182 482-487页 [查看摘要][在线阅读][下载 6830K] [下载次数:119 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:0 ] - 程燕兵;韩如成;
针对电动汽车串联锂离子电池组多次充放电后导致的电量不一致问题,提出一种能够快速有效的实现锂电池组均衡的方法。该均衡方案采用改进的单端反激电路为主电路,以双层开关臂作为选通单体电池的通道,在电池组充电时能够转移电压最高的单体能量,在电池组放电时能够补充电压最低的单体能量,最终实现整个电池组充放电的自由均衡。文章对均衡拓扑结构和原理进行了分析,提出相应的均衡策略,并通过搭建simulink仿真实验证明了该方法的可行性。
2020年06期 v.41;No.182 482-487页 [查看摘要][在线阅读][下载 6830K] [下载次数:119 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:0 ]