[发明专利]一种分词的方法、装置及存储介质有效
申请号: | 201911214054.7 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111090996B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 张少阳 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵晓荣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 方法 装置 存储 介质 | ||
本申请公开了一种分词的方法、装置及存储介质,对于待分词的文本中的任意一个待分词的字,首先获得该字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。分词模型是一个字组对应一个,不是一个字对应一个,因此,对于具有共性的字归为一个字组,该字组对应同一个分词模型。这样分词模型的数量就会大大降低,因此,训练分词模型的过程就会简单,耗时较少,对于训练分词模型的机器性能要求较低。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种分词的方法、装置及存储介质。
背景技术
分词技术是自然语言处理领域中的一项重要技术。所谓分词,就是将句子切分为一个一个的单独的词。以中文分词为例,分词的目的就是将文本中每一句话切分为一个一个单独的中文词语。目前,分词技术已经被广泛应用于机器翻译、语音识别、文本摘要、文本检索等自然语言处理的应用分支中。分词的质量直接影响以上各项应用的结果的准确性。以语音识别为例,分词的质量越高,则应用分词技术进行语音识别的准确性越高。
现有的一种分词方法是一个字对应一个分词模型,对于分词模型的训练量特别巨大,训练过程耗时比较久,对于机器性能要求较高。
发明内容
本申请提供了一种分词的方法、装置及存储介质,利用较少的分词模型便可以准确分词,分词模型训练过程简单,耗时较少。
本申请第一方面,提供一种分词的方法,包括:
获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;
利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。
可选地,各个模型训练字组通过预先对样本中的任意字进行训练获得,具体包括:
根据字与相邻字的相关性获得任意两个字的特征分布相关性;根据字向量获得所述任意两个字的语义相似度;根据字的权重参数向量获得所述任意两个字的构词规律相似性;
根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。
可选地,所述根据字与相邻字的相关性获得任意两个字的特征分布相关性,包括:
获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;
获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;
获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。
可选地,在所述根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性,之前还包括:
确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。
可选地,根据字向量获得所述任意两个字的语义相似度,具体包括:
获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。
可选地,根据字的权重参数向量获得所述任意两个字的构词规律相似性,具体包括:
利用多模型分词方法训练得到的所述任意两个字中第一个字A的权重参数向量和所述任意两个字中第二个字B的权重参数向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911214054.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种横机钢丝传送装置
- 下一篇:一种石墨烯复合金属箔及其制备方法