[发明专利]一种中文分词方法、装置及存储介质有效
申请号: | 202010095159.1 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111209751B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 宋博川;张强;柴博;贾全烨;戴铁潮 | 申请(专利权)人: | 全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/216;G06N3/0442;G06N3/08 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 韩罗琳 |
地址: | 102209 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 装置 存储 介质 | ||
1.一种中文分词方法,其特征在于,包括如下步骤:
获取文本对应的每一个字的字向量;
将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率,其中,投射层用于计算每一个字向量属于每一个目标类别的初始概率,其初始概率通过线性变换s=Wv+b计算,s是初始概率,W是一个(4,h)的矩阵,v是每一个字的字向量,b是一个任意数值;
获取目标领域词库对应的文本向量;
将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;
根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签,进行调整的方式包括:将所述文本向量与所述字向量进行比对,当所述字向量与相邻字向量在所述文本向量中存在,增加所述字向量在对应的目标类别的初始概率或者增加所述字向量在对应的目标类别的权重偏置;当所述字向量与相邻字向量在所述文本向量中不存在,减小所述字向量在对应的目标类别的初始概率或者减小所述字向量在对应的目标类别的权重偏置;
根据每一个所述字向量的标签,得到所述文本的分词序列。
2.根据权利要求1所述的方法,其特征在于,所述获取文本对应的每一个字的字向量,包括:
将所述文本输入到所述长短期记忆网络模型的第一编码层,得到所述文本对应的每一个字的初始字向量;
将所述对应的每一个字的初始字向量输入到第二编码层,得到表征上下文关系的字向量,将所述表征上下文关系的字向量作为所述文本对应的每一个字的字向量。
3.根据权利要求1所述的方法,其特征在于,所述目标类别包括多字词语的首位、多字词语的中间位、多字词语的尾位和单字词语。
4.根据权利要求1所述的方法,其特征在于,根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签,包括:
获取转移概率矩阵;
根据所述转移概率矩阵,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签。
5.一种中文分词装置,其特征在于,包括:
字向量获取模块,用于获取文本对应的每一个字的字向量;
初始概率获取模块,用于将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率,其中,投射层用于计算每一个字向量属于每一个目标类别的初始概率,其初始概率通过线性变换s=Wv+b计算,s是初始概率,W是一个(4,h)的矩阵,v是每一个字的字向量,b是一个任意数值;
文本向量获取模块,用于获取目标领域词库对应的文本向量;
条件随机场层输入模块,用于将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;
标签获取模块,用于根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签,进行调整的方式包括:将所述文本向量与所述字向量进行比对,当所述字向量与相邻字向量在所述文本向量中存在,增加所述字向量在对应的目标类别的初始概率或者增加所述字向量在对应的目标类别的权重偏置;当所述字向量与相邻字向量在所述文本向量中不存在,减小所述字向量在对应的目标类别的初始概率或者减小所述字向量在对应的目标类别的权重偏置;
分词序列获取模块,用于根据每一个所述字向量的标签,得到所述文本的分词序列。
6.根据权利要求5所述的装置,其特征在于,所述字向量获取模块,包括:
初始字向量获取模块,用于将所述文本输入到所述长短期记忆网络模型的第一编码层,得到所述文本对应的每一个字的初始字向量;
字向量获取子模块,用于将所述对应的每一个字的初始字向量输入到第二编码层,得到表征上下文关系的字向量,将所述表征上下文关系的字向量作为所述文本对应的每一个字的字向量。
7.根据权利要求5所述的装置,其特征在于,所述目标类别包括多字词语的首位、多字词语的中间位、多字词语的尾位和单字词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司,未经全球能源互联网研究院有限公司;国家电网有限公司;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010095159.1/1.html,转载请声明来源钻瓜专利网。