[发明专利]一种分词的方法、装置及存储介质有效

申请号：	201911214054.7	申请日：	2019-12-02
公开（公告）号：	CN111090996B	公开（公告）日：	2023-07-14
发明（设计）人：	张少阳	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	赵晓荣
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分词方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种分词的方法、装置及存储介质，对于待分词的文本中的任意一个待分词的字，首先获得该字所在的模型训练字组，其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。分词模型是一个字组对应一个，不是一个字对应一个，因此，对于具有共性的字归为一个字组，该字组对应同一个分词模型。这样分词模型的数量就会大大降低，因此，训练分词模型的过程就会简单，耗时较少，对于训练分词模型的机器性能要求较低。

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种分词的方法、装置及存储介质。

背景技术

分词技术是自然语言处理领域中的一项重要技术。所谓分词，就是将句子切分为一个一个的单独的词。以中文分词为例，分词的目的就是将文本中每一句话切分为一个一个单独的中文词语。目前，分词技术已经被广泛应用于机器翻译、语音识别、文本摘要、文本检索等自然语言处理的应用分支中。分词的质量直接影响以上各项应用的结果的准确性。以语音识别为例，分词的质量越高，则应用分词技术进行语音识别的准确性越高。

现有的一种分词方法是一个字对应一个分词模型，对于分词模型的训练量特别巨大，训练过程耗时比较久，对于机器性能要求较高。

发明内容

本申请提供了一种分词的方法、装置及存储介质，利用较少的分词模型便可以准确分词，分词模型训练过程简单，耗时较少。

本申请第一方面，提供一种分词的方法，包括：

获得待分词的字所在的模型训练字组，各个模型训练字组通过预先对样本中的任意字进行分析获得，每个模型训练字组对应一个分词模型；

利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。

可选地，各个模型训练字组通过预先对样本中的任意字进行训练获得，具体包括：

根据字与相邻字的相关性获得任意两个字的特征分布相关性；根据字向量获得所述任意两个字的语义相似度；根据字的权重参数向量获得所述任意两个字的构词规律相似性；

根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性；

根据所述综合相关性确定所述任意两个字的模型训练字组，每个所述模型训练字组对应一个分词模型。

可选地，所述根据字与相邻字的相关性获得任意两个字的特征分布相关性，包括：

获得所述任意两个字中第一个字A的i个相邻字，获得所述任意两个字中第二个字B的j个相邻字；