[发明专利]一种音视频通话方言识别方法及终端设备有效

申请号：	201810456906.2	申请日：	2018-05-14
公开（公告）号：	CN108682420B	公开（公告）日：	2023-07-07
发明（设计）人：	张辉	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/18;H04N7/14
代理公司：	深圳中一专利商标事务所 44237	代理人：	官建红
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频通话方言识别方法终端设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音视频通话方言识别方法，其特征在于，包括：

采集通话过程中用户的语音数据，并确定出所述语音数据的方言种类；

将所述语音数据划分为多个语音数据段，所述语音数据段与组成所述语音数据的每个字词一一对应；

获取所述方言种类对应的发音词典以及语言模型，基于所述发音词典对所述语音数据段进行语音识别，确定出所述语音数据对应的多个候选文字序列，所述发音词典中记录有字词对应的方言发音数据，所述语言模型中存储有所述方言种类的语法规则数据；

基于所述语言模型对所述多个候选文字序列进行分析，以从所述多个候选文字序列筛选出与所述语音数据匹配度最高的文字序列，并将所述文字序列发送至通话对端终端设备进行显示；

在得到识别出的所述文字序列后，所述音视频通话方言识别方法还包括：

采集通话过程中用户的语音数据，将语音数据划分为多个语音数据段，并基于所述发音词典以及所述语言模型对语音数据段进行分析，确定出语音数据对应的匹配度最高的文字序列；

根据当前采集到的语音数据的语音数据段的数量以及语音数据的时长，和上一次采集到的语音数据的语音数据段的数量以及语音数据的时长，计算并判断所述当前语音数据与所述上一次语音数据的语速的差值是否大于预设语速阈值，并判断所述当前语音数据对应的文字序列与所述上一次语音数据对应的文字序列的相似度是否大于预设相似度阈值；

若所述语速的差值大于所述语速阈值，且所述相似度大于所述相似度阈值，确定出所述当前语音数据对应的文字序列中存在差异的字词，并从语音数据中提取出所述存在差异的字词对应的语音数据段，再基于提取出的所述语音数据段，对所述存在差异的字词对应的方言发音数据进行更新。

2.如权利要求1所述的音视频通话方言识别方法，其特征在于，还包括：

对所述语音数据以及所述文字序列进行分析，确定出所述文字序列中每个字词在所述语音数据中分别对应的语音数据段；

基于分析结果，对所述发音词典中组成所述文字序列的每个字词对应的所述方言发音数据进行更新。

3.如权利要求1所述的音视频通话方言识别方法，其特征在于，还包括：

若接收到用户输入的发音修改指令，在所述发音词典中确定出所述发音修改指令所指示修改的待修改发音字词；

从采集到的用户的语音数据中，提取出所述待修改发音字词对应的用户发音数据，并基于所述用户发音数据对所述待修改发音字词对应的所述方言发音数据进行更新。

4.如权利要求1所述的音视频通话方言识别方法，其特征在于，还包括：

接收用户输入的文字修改指令；

在所述文字序列中确定出所述文字修改指令所指示修改的待修改字词，并用所述文字修改指令中指示的标准字词替换所述待修改字词；

从所述语音数据中提取出所述待修改字词对应的语音数据段，以对所述标准字词对应的所述方言发音数据进行更新。

5.如权利要求1所述的音视频通话方言识别方法，其特征在于，还包括：