[发明专利]一种中文分词方法、装置及存储介质有效
申请号: | 202010095159.1 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111209751B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 宋博川;张强;柴博;贾全烨;戴铁潮 | 申请(专利权)人: | 全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/216;G06N3/0442;G06N3/08 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 韩罗琳 |
地址: | 102209 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 装置 存储 介质 | ||
本发明提供了一种中文分词方法、装置及存储介质,其中,方法包括:获取文本对应的每一个字的字向量;将每一个字向量输入到长短期记忆网络模型的投射层,得到投射层输出的所述字向量隶属于每一个目标类别的初始概率;获取目标领域词库对应的文本向量;将字向量隶属于每一个目标类别的初始概率和文本向量输入到长短期记忆网络模型的条件随机场层;根据文本向量,对字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;根据标签序列,得到文本的分词序列。通过实施本发明,利用长短期记忆网络模型和目标领域词库对字向量隶属于每一个目标类别的初始概率进行计算与调整,得到中文分词序列,提高了分词结果的准确性。
技术领域
本发明涉及自然语言处理领域,具体涉及一种中文分词方法、装置及存储介质。
背景技术
中文分词是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独对词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
相关技术中,分词方法为基于传统的统计学习的分词方法,但需要人工设计规则模板,而且面临严重的数据稀疏问题,导致分词结果的准确率低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的分词结果的准确率低缺陷,从而提供一种中文分词方法、装置及存储介质。
根据第一方面,本发明实施例提供一种中文分词方法,包括如下步骤:
获取文本对应的每一个字的字向量;将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率;获取目标领域词库对应的文本向量;将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;根据所述标签序列,得到所述文本的分词序列。
结合第一方面,在第一方面第一实施方式中,所述获取文本对应的每一个字的字向量,包括:将所述文本输入到所述长短期记忆网络模型的第一编码层,得到所述文本对应的每一个字的初始字向量;将所述对应的每一个字的初始字向量输入到第二编码层,得到表征上下文关系的字向量,将所述表征上下文关系的字向量作为所述文本对应的每一个字的字向量。
结合第一方面,在第一方面第二实施方式中,所述目标类别包括多字词语的首位、多字词语的中间位、多字词语的尾位和单字词语。
结合第一方面,在第一方面第三实施方式中,根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签,包括:获取转移概率矩阵;根据所述转移概率矩阵,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签。
根据第二方面,本发明实施例提供一种中文分词装置,包括:字向量获取模块,用于获取文本对应的每一个字的字向量;初始概率获取模块,用于将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率;文本向量获取模块,用于获取目标领域词库对应的文本向量;条件随机场层输入模块,用于将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;标签获取模块,用于根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;分词序列获取模块,用于根据每一个所述标签序列,得到所述文本的分词序列。
结合第二方面,在第二方面第一实施方式中,所述字向量获取模块,包括:初始字向量获取模块,用于将所述文本输入到所述长短期记忆网络模型的第一编码层,得到所述文本对应的每一个字的初始字向量;字向量获取子模块,用于将所述对应的每一个字的初始字向量输入到第二编码层,得到表征上下文关系的字向量,将所述表征上下文关系的字向量作为所述文本对应的每一个字的字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司,未经全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010095159.1/2.html,转载请声明来源钻瓜专利网。