基于双字词的动态最大匹配分词算法的研究Realization of Dynamic Maximum Matching Arithmetic
宋国柱,陈俊杰
摘要(Abstract):
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法——基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法。实验结果表明,此算法相对于现有最大匹配分词算法有显著提高。
关键词(KeyWords): 中文分词;动态;最大匹配;词库
基金项目(Foundation):
作者(Author): 宋国柱,陈俊杰
参考文献(References):
- [1]孙茂松,邹嘉彦.汉语自动分词中的若干理论问题[J].语言文字应用,1995,16(4):40-46.
- [2]朱巧明,李培峰,吴娴,等.中文信息处理技术教程[M].北京:清华大学出版社,2005.
- [3]刘件,魏程.中文分词算法研究[J].微计算机应用,2008,29(8):11-16.
- [4]刘源,谭强,等.信息处理用现代汉语分词规范及自动分词方法[M].北京:清华大学出版社,2004.
- [5]苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004.
- [6]王东,陈笑蓉.一种改进的高效分词词库机制[J].贵州大学学报(自然科学版),2007,24(4):380-384;389.