[发明专利]文本序列分词方法、装置及存储介质在审
申请号: | 201911097121.1 | 申请日: | 2019-11-11 |
公开(公告)号: | CN110795938A | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 陈宇鹏;史亮;王铄;王斌;孟二利;过群 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F17/18;G06K9/62 |
代理公司: | 11138 北京三高永信知识产权代理有限责任公司 | 代理人: | 羊淑梅 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开揭示了一种文本序列分词方法,属于自然语言处理技术领域。所述方法包括:获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。本公开以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。 | ||
搜索关键词: | 分词 文本序列 子结果 分词结果 结果合并 自然语言处理技术 分词处理 概率确定 激活函数 位置处 概率 合并 | ||
【主权项】:
1.一种文本序列分词方法,其特征在于,所述方法包括:/n接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;/n获取所述文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;/n通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;/n通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911097121.1/,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法、装置及存储介质
- 下一篇:文本处理方法、装置