[发明专利]文本序列分词方法、装置及存储介质在审
申请号: | 201911097121.1 | 申请日: | 2019-11-11 |
公开(公告)号: | CN110795938A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 陈宇鹏;史亮;王铄;王斌;孟二利;过群 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F17/18;G06K9/62 |
代理公司: | 11138 北京三高永信知识产权代理有限责任公司 | 代理人: | 羊淑梅 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 文本序列 子结果 分词结果 结果合并 自然语言处理技术 分词处理 概率确定 激活函数 位置处 概率 合并 | ||
本公开揭示了一种文本序列分词方法,属于自然语言处理技术领域。所述方法包括:获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。本公开以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种文本序列分词方法、装置及存储介质。
背景技术
在针对中文的自然语言处理(Natural Language Process,NLP)任务中,通常以词为单元对文本进行处理,这就使得中文分词成为了中文自然语言处理中的基础任务。
中文分词任务通常由分词模型对文本序列处理完成。其中,分词模型由标注好的语料训练获得,训练语料的数据量的大小直接影响模型训练的准确性。在相关技术中,为了扩展训练语料,通常采用数据增强的方式对人工标注的训练语料进行扩展,以获得新的训练语料。
然而,通过数据增强的方式获得的训练语料只是对已有的训练预料的简单修改,对分词模型的训练效果提升有限,影响分词任务的分词准确性。
发明内容
本公开提供一种文本序列分词方法、装置及存储介质。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种文本序列分词方法,所述方法包括:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
在一种可能的实现方式中,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
在一种可能的实现方式中,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911097121.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、装置及存储介质
- 下一篇:文本处理方法、装置