[发明专利]文本分词的方法及装置在审
申请号: | 202211681104.4 | 申请日: | 2022-12-27 |
公开(公告)号: | CN116050398A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 潘帅;张伟;陈曦;麻志毅 | 申请(专利权)人: | 浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06N3/048;G06N3/047;G06N3/08;G06N3/0442 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 尹倩倩 |
地址: | 311215 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分词 方法 装置 | ||
1.一种文本分词的方法,其特征在于,所述方法包括:
获取目标语料;
基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性;其中,所述预训练好的文本分词模型基于目标词库中词的随机组合合成的训练语料训练得到,所述目标词库基于最大连接分词和回溯过滤法确定;
基于所述目标位置的文本成词的可能性对目标语料进行分词。
2.如权利要求1所述的文本分词的方法,其特征在于,所述预训练好的文本分词模型中包括预训练好的词义表示模型、键值对记忆网络以及全局指针网络,相应的,所述基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性,包括:
基于预训练好的词义表示模型,确定所述目标语料中的每个字或者词组的第一表示向量;
基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;所述第二表示向量为融合了位置信息的表示向量;
基于预训练好的全局指针网络和所述第二表示向量,确定目标位置的字或词组成词的可能性。
3.如权利要求2所述的文本分词的方法,其特征在于,所述目标词库的确认过程,包括:
按照预设n-gram模型对目标行业语料进行词划分,并按照词间信息熵确定初始词库;
基于最大连接分词和所述初始词库确定第一分词集合,并基于回溯过滤法过滤所述第一分词集合中意义模糊的词,并将过滤后的第一分词集合作为目标词库。
4.如权利要求3所述的文本分词的方法,其特征在于,所述基于回溯过滤法过滤所述第一分词集合中意义模糊的词,包括:
在确定所述第一分词集合中长度小于或者等于预设阈值的第一目标分词在所述初始词库中存在,或者第一分词集合中长度大于预设阈值的第二目标分词对应的第二分词集合中任意一个分词在所述初始词库中存在的情况下,则将所述第一目标分词或所述第二目标分词保留;
否则,将所述第一目标分词或者所述第二目标分词过滤。
5.如权利要求4所述的文本分词的方法,其特征在于,所述预训练好的键值对记忆网络用于确定关键字嵌入向量以及值嵌入向量,所述关键字嵌入向量表示每个字或者词组的词义信息,所述值嵌入向量用于表示所述每个字或者词组的位置信息,相应地,所述基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;包括:
通过所述关键字嵌入向量对所述每个字或者词组的第一表示向量进行映射,确定每个字或者词组的第三表示向量;其中,第三表示向量pi,的关系式为:
其中,hi为每个字或者词组的第一表示向量,hi∈Rd,d为每个字或者词组的第一表示向量的维度,ki,j为每个字或者词组的关键字嵌入向量;
基于所述值嵌入向量vi,以及所述第三表示向量pi,确定所述每个字或者词组的第二表示向量oi;其中,所述每个字或者词组的第二表示向量oi的表达式为:
oi=∑j=1pi,vi,j。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司,未经浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211681104.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种荧光聚酰亚胺胶带的制备方法和应用
- 下一篇:一种光子集成的光域均衡器芯片