[发明专利]一种基于互信息的N_gram中文分词方法在审
申请号: | 202011458944.5 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112560446A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 陈宇;王亚威 | 申请(专利权)人: | 东北林业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于互信息的N_gram中文分词方法,其中基于互信息的N_gram中文分词方法包括:首先根据训练数据集仅使用词长度小于6的词建立词典,获得N_gram语言模型的统计信息以及得到字与字之间的内部连接度和外部离散度,计算字与字之间的分合比;然后使用双向最大匹配算法根据词典和N_gram语言模型的统计信息进行中文分词;最后为根据字与字之间的内部连接度、外部离散度以及分合比对分词结果进行二次处理,得到最终的分词结果。该方法通过引入互信息知识有效的提升N_gram算法的分词速度,并且提高了N_gram算法的分词准确率,突破了N_gram算法无法处理未登录词的限制。 | ||
搜索关键词: | 一种 基于 互信 n_gram 中文 分词 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011458944.5/,转载请声明来源钻瓜专利网。