[发明专利]一种基于BERT的电网调度语音识别语言模型构建方法有效
申请号: | 202010148584.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111489746B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 陈蕾;郑伟彦;杨勇;黄武浩;张弛;乐全明;童力;陈彤;黄红兵;章毅;刘宏伟;姜健;余慧华;傅婧;郑洁;曹青;向新宇;卢家驹;何岳昊 | 申请(专利权)人: | 国网浙江省电力有限公司;国网浙江省电力有限公司杭州供电公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/02;G10L15/06;G10L15/26;G10L15/183 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
地址: | 310000*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 电网 调度 语音 识别 语言 模型 构建 方法 | ||
1.一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,包括:
提取电网调度语句的字粒度语义特征;
提取电网调度语句的关键字特征;
提取电网调度语句的命名实体特征;
对输入BERT原始模型的电网调度语句以字为单元进行切分以提取位置特征,基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型;
所述提取电网调度语句的命名实体特征包括:
利用电网台账信息,构建命名实体词典,并统计命名实体词典中最短和最长命名实体的字数,分别记为c和d;
对于电网调度语句中的每个字,提取包含该字的所有长度为q(q=c,c+1,…,d)的字序列,再计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度;
基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度信息中各个字的命名实体特征;
所述基于每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度计算得到电网调度信息中各个字的命名实体特征包括:
对于每一个字,设其共有e个对应的字序列,其中第s个字序列(s=1,2,…,e)与各个命名实体相似度的最大值记为msimxu(s),共有e个相似度最大值,再设该最大值中的最大者为msimxu(t),则称第t个字序列为该字的匹配字序列,计算该字的命名实体特征向量:
式中:f(u)表示命名实体特征向量第u个维度的值;g·msimxu(t)表示匹配字序列误识别的概率,其中g在匹配字序列和命名实体完全相同时为0,否则为1;pos表示该字为匹配字序列的第几个字;len表示匹配字序列的长度;dim表示命名实体特征向量的维数。
2.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述提取电网调度语句的字粒度语义特征包括:
以字为粒度对调度语句进行切分,每个字的语义特征向量采用word2vec的skip-gram模型生成。
3.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述提取电网调度语句的关键字特征包括:
对于电网调度语句中的每个字,将其拼音拆分为声母、韵母和声调三部分,当出现整体认读音节时直接拆分为声母和韵母,组合韵母不再进行拆分,不含声母的字或不含声调的字将声母或声调记为空值;
计算电网调度语句中每个字与各个关键字的相似度;
对于电网调度语句中的每个字,提取与其相似度最高的关键字的语义特征向量并根据相似度,得到该字的关键字特征向量。
4.根据权利要求3所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述计算电网调度语句中每个字与各个关键字的相似度包括:
计算公式如下:
式中:simsheng表示在两个字声母相同时取1,声母不同但分别为对应的平舌和翘舌音时取0.5,其余情况取0;simyun表示在两个字韵母相同时取1,韵母不同但分别为对应的前鼻和后鼻音时取0.5,其余情况取0;simdiao表示在两个字声调相同时取1,否则取0。
5.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述计算得到每一条长度为q的字序列与命名实体词典中各个长度为q的词的相似度包括:
计算公式为:
式中:simzi(r)表示字序列的第r个字与命名实体第r个字的相似度。
6.根据权利要求1所述的一种基于BERT的电网调度语音识别语言模型构建方法,其特征在于,所述基于语义特征、关键字特征、命名实体特征以及位置特征对BERT原始模型进行训练得到电网调度语音识别语言模型包括:
对BERT原始模型进行MLM任务的无监督的预训练;
对BERT原始模型进行基于调度语句合理概率的有监督的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;国网浙江省电力有限公司杭州供电公司,未经国网浙江省电力有限公司;国网浙江省电力有限公司杭州供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010148584.2/1.html,转载请声明来源钻瓜专利网。