[发明专利]输入法词频调整方法及装置在审
申请号: | 202110357086.3 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113177403A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 沈哲吉;贾昌鑫;朱相宇;王映新 | 申请(专利权)人: | 北京华宇信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F3/023;G06F40/289 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 100084 北京市海淀区中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入法 词频 调整 方法 装置 | ||
1.一种输入法词频调整方法,其特征在于,包括以下步骤:
获取语料数据;
通过分词模型,对所述语料数据进行分词,生成若干分词单元;
通过识音模型,对所述分词单元进行注音,生成分词单元音节;
将音节相同的分词单元保存至同一音节词库;
统计同一音节词库中第一分词单元的出现概率;
将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;
根据比较结果,调整第一分词单元的词频;
根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。
2.如权利要求1所述的输入法词频调整方法,其特征在于,根据比较结果,调整第一分词单元的词频,具体包括:
当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频;
当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频。
3.如权利要求2所述的输入法词频调整方法,其特征在于,当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频,具体包括:
根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:
式中,ak,i为所述第一分词单元wi在第K轮调整中的调整权重系数,P(wi|s)为第一分词单元wi在同一音节s词库中的出现概率;
根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:
式中,ek,i为所述第一分词单元wi在第K轮调整中的词频权重系数,ak,i为所述第一分词单元wi在第K轮调整中的调整权重系数;
根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:
式中,freqk+1,i为第一分词单元wi在第K+1轮调整中的词频,ek,i为所述第一分词单元wi在第K轮调整中的词频权重系数,Zk为所述第一分词单元wi的词频更新,且
4.如权利要求2所述的输入法词频调整方法,其特征在于,当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频,具体包括:
根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:
式中,ak,i为所述第一分词单元wi在第K轮调整中的调整权重系数,P(wi|s)为所述第一分词单元wi在同一音节s词库中的出现概率;
根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:
式中,ek,i为所述第一分词单元wi在第K轮调整中的词频权重系数,ak,i为所述第一分词单元wi在第K轮调整中的调整权重系数;
根据所述第一分词单元在第K轮调整中的词频权重系数,计算所述第一分词单元在第K+1轮调整中的词频;其表示如下:
式中,freqk+1,i为第一分词单元wi在第K+1轮调整中的词频,ek,i为所述第一分词单元wi在第K轮调整中的词频权重系数,Zk为所述第一分词单元wi的词频更新,且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇信息技术有限公司,未经北京华宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110357086.3/1.html,转载请声明来源钻瓜专利网。