[发明专利]一种多音字标注方法、装置以及计算机可读存储介质有效
申请号: | 201911374465.2 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111078898B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 冯小琴;雷欣;李志飞 | 申请(专利权)人: | 出门问问创新科技有限公司;大众汽车(中国)投资有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京乐知新创知识产权代理事务所(普通合伙) 11734 | 代理人: | 江宇 |
地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多音字 标注 方法 装置 以及 计算机 可读 存储 介质 | ||
1.一种多音字标注方法,其特征在于,所述方法包括:
获取多音字;
将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;
从歧义规则词库中获取对应于所述多音字的读音权重;
根据所获取到的读音概率和读音权重,得到置信度;
根据所得到的置信度,对所述多音字进行读音标注;
所述从歧义规则词库中获取对应于所述多音字的读音权重,包括:判断所述歧义规则词库中是否包含所述多音字,若判定所述歧义规则词库中包含所述多音字,则从所述歧义规则词库中获取对应于所述多音字的读音权重;若判定所述歧义规则词库中未包含所述多音字,则选取概率最高的两个读音概率,并设置所述两个读音概率相同的读音权重;
相应的,若判定所述歧义规则词库中未包含所述多音字,所述根据所获取到的读音概率和读音权重,得到置信度,包括:根据所选取的两个读音概率和所设置的读音权重,得到置信度;
所述根据所获取到的读音概率和读音权重,得到置信度,包括:将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:P=(p1*w1-p2*w2-…pn*wn)2*100,P∈(0~100),其中P为置信度,p1、p2、…、pn为所述多音字对应的多个读音概率,w1、w2、…、wn为所述多音字对应的多个读音权重。
2.根据权利要求1所述的方法,其特征在于,所述根据所得到的置信度,对所述多音字进行读音标注,包括:
判断所述置信度是否低于预设值;
若判定所述置信度低于所述预设值,则从高频读音库搜索对应多音字的读音;
将所述多音字标注所搜索到的读音。
3.根据权利要求2所述的方法,其特征在于,若判定所述置信度超过所述预设值,则从多个所述读音概率中选取最大读音概率;
获取所述最大读音概率所对应的读音;
将所述多音字标注为所获取的读音。
4.根据权利要求1所述的方法,其特征在于,所述获取多音字,包括:
获取文本;
对所获取的文本进行分词处理,得到多个分词;
判断所得到的分词是否存在于多音字词库中;
若判定所得到的分词存在于所述多音字词库中,则判定所述分词为多音字。
5.根据权利要求4所述的方法,其特征在于,在对所获取的文本进行分词处理,得到多个分词之后,所述方法还包括:
利用读音字典对所述分词进行读音标注;
判断所述分词和对应的读音标注是否存在于强规则词库中;
若判定所述分词和对应的读音标注存在于所述强规则词库中,则将所述分词标注为由所述读音字典所标注的读音;
若判定所述分词和对应的读音标注不存在于所述强规则词库中,则判断所述分词是否存在于多音字词库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问创新科技有限公司;大众汽车(中国)投资有限公司,未经出门问问创新科技有限公司;大众汽车(中国)投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374465.2/1.html,转载请声明来源钻瓜专利网。