[发明专利]一种中文分词方法及装置有效
| 申请号: | 201510924974.3 | 申请日: | 2015-12-14 |
| 公开(公告)号: | CN105550170B | 公开(公告)日: | 2018-10-12 |
| 发明(设计)人: | 韦强申;刘鹏 | 申请(专利权)人: | 北京锐安科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
| 地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 分词 方法 装置 | ||
本发明实施例公开了一种中文分词方法及装置。该方法包括:将文本集切分为多个短句,并为多个短句编号;对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据第一短句编号列表和第二短句编号列表计算共现度;获取当前中文字符对应的邻接字符集,根据邻接字符集计算邻接相关度;根据共现度和邻接相关度确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集;根据候选词集对所述文本集进行分词。该方法在确定候选词集时计算量小,准确度高,可有效提升分词结果的准确度以及提高分词效率,且该方法不依赖语料词典,可实现无监督的候选词汇提取。
技术领域
本发明实施例涉及自然语言技术领域,尤其涉及一种中文分词方法及装置。
背景技术
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文以字为基本的书写单位,词与词之间没有类似英文空格之类用于标识词边界的符号,因此,对中文文本中的每个句子进行分词,是中文文本分析处理中的难题。
中文分词技术主要有基于机械匹配的中文分词算法,基于统计语言模型(Statistical Language Model,SLM)的中文分词方法,基于人工智能技术的中文分词方法。其中,基于统计语言模型的分词方法,通过统计文本上下文汉字与汉字相邻共现的组合频率,依据汉字组合的统计信息实现文本分词。基于统计语言模型与机械匹配相结合的方法,分词的效率和准确率相对较高,实现比较简单,是现在普遍采用的中文分词方法之一。
目前,基于统计语言模型的分词方法主要有串频统计和汉字相关度两种方法。基于串频统计的方法,依据字串的频率提取候选词,会将文本中一些随机出现的高频组合识别为候选词,而且该方法需要给出停止词表,不能很好的识别包含停止词的候选词,因而影响分词准确度;基于汉字相关度的方法,对相关度较高的词汇识别准确率较高,对相关度低的词汇识别准确度较低,并且该方法在计算相关度时算法复杂,计算量较大,影响分词效率。
发明内容
本发明实施例的目的是提供一种中文分词方法及装置,以解决现有的中文分词方案存在的准确度不足以及效率低的问题。
一方面,本发明实施例提供了一种中文分词方法,包括:
将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;获取所述当前中文字符对应的邻接字符集,根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;
根据所述候选词集对所述文本集进行分词。
另一方面,本发明实施例提供了一种中文分词装置,包括:
文本集切分模块,用于将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
第一短句编号列表获取模块,用于对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表;
第二短句编号列表获取模块,用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表;
共现度计算模块,用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;
邻接字符集获取模块,用于获取所述当前中文字符对应的邻接字符集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510924974.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于云端的网页分类控制装置及方法
- 下一篇:一种串口扩展方法





