[发明专利]可快速更新语言模型的大规模语音识别方法及系统有效

专利信息
申请号: 201911420724.0 申请日: 2019-12-31
公开(公告)号: CN111063337B 公开(公告)日: 2022-03-25
发明(设计)人: 陆沁 申请(专利权)人: 思必驰科技股份有限公司
主分类号: G10L15/00 分类号: G10L15/00;G10L15/06;G10L15/08;G10L15/26
代理公司: 北京商专永信知识产权代理事务所(普通合伙) 11400 代理人: 黄谦;邓婷婷
地址: 215123 江苏省苏州市苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种可快速更新语言模型的大规模语音识别方法及系统方法包括:获取多个说法结构语句。获取多个类别所对应的词条。扩展语音文本。从说话结构语句中多个类别词条中,选取多个待更新类别词条。训练各类新词条的词条语言模型。更新词条。根据所述说法语言模型及所述词条语言模型结合声学模型编译成解码网络。获取识别结果。本发明结合传统语言模型及class‑based语言模型,提供了一种可以快速更新的大规模语音识别系统,能够在几分钟内,仅耗费几MB的计算、储存空间的情况下,训练出一个包含最新词汇的语言模型,提高新词汇的识别率,同时保证原有大词汇的识别率。
搜索关键词: 快速 更新 语言 模型 大规模 语音 识别 方法 系统
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201911420724.0/,转载请声明来源钻瓜专利网。

同类专利
  • 语音识别方法和装置、存储介质及电子设备-202211676144.X
  • 邵琪杰;颜京豪;谢磊 - 腾讯科技(深圳)有限公司
  • 2022-12-26 - 2023-10-27 - G10L15/00
  • 本申请公开了一种语音识别方法和装置、存储介质及电子设备。其中,该方法包括:获取待识别语音的文本内容声学向量和口音声学向量,其中,文本内容声学向量包括待识别语音中的T帧语音的文本内容声学特征,口音声学向量包括待识别语音中的T帧语音的口音声学特征;将文本内容声学向量输入第一解码器,得到目标对齐文本向量;将口音声学向量和目标对齐文本向量输入口音分类器,得到待识别语音的口音分类向量;将口音分类向量和文本内容声学向量进行拼接,得到目标拼接表征向量;通过第二解码器,根据目标拼接表征向量,确定从待识别语音中识别到的目标文本内容。本申请解决了相关技术中语音识别的准确率较低的技术问题。
  • 一种背景语音与主讲语音的混合语音识别系统-202310596200.7
  • 陈尚武;李华松;吕叶金 - 深蓝感知(杭州)物联科技有限公司
  • 2023-05-25 - 2023-10-27 - G10L15/00
  • 本发明涉及监控领域,具体为一种背景语音与主讲语音的混合语音识别系统,包括语音采集模块、自适应背景语音检测模块、声音分离模块、背景声音自增益模块、主讲语音分段模块、背景语音检测模块、时空混合声音流模块和混合语音识别模块,本申请通过设置主讲分段模块、背景语音检测模块和混合语音识别模块对主讲语音识别的同时,还能对背景语音进行语音识别,即保证主讲语音识别的实时性,又同时利用空闲资源对于背景语音识别。
  • 口音分类方法、装置、电子设备、存储介质及程序产品-202211533195.7
  • 邵琪杰;颜京豪;谢磊 - 腾讯科技(深圳)有限公司
  • 2022-12-01 - 2023-10-27 - G10L15/00
  • 本申请提供了一种口音分类方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,应用于人工智能技术领域,包括:对待分类语音进行口音分类,得到待分类语音中各单位语音归属于各口音类别的概率;对待分类语音进行文本向量提取,得到待分类语音所对应文本的文本向量;其中,单位语音与文本中的单位文本一一对应;基于文本向量,确定文本中各单位文本对应各口音类别的权重;结合各单位文本对应各口音类别的权重,以及各单位语音归属于各口音类别的概率,确定待分类语音归属的目标口音类别。如此,能够提高口音分类结果的精确性。
  • 一种基于chatGPT的智能方言语音识别方法-202310839113.X
  • 苏文芝;刘志豪;冯高峰;谢学广;李永文;陈平;常小明;郭兵;李攀;刘海菊;姜东洋 - 济源职业技术学院
  • 2023-07-10 - 2023-10-24 - G10L15/00
  • 本发明公开了一种基于chatGPT的智能方言语音识别方法,属于语音识别技术领域,包括如下步骤:S1:实时采集用户输入的语音信息,且对用户输入的语音信息进行处理,确定出用户输入的语音特征信息及语音特征类别;S2:根据语音特征类别,索引智能语音库内的语音识别模型,查找出与用户输入的语音特征类别相匹配的语音识别模型,基于查找出来的语音识别模型对语音信息进行语音识别,确定出基于chatGPT的用户输入的方言语音。本发明解决了现有由于不同地区的用户,其普通话并不完全标准,带有地区方言,其不能对方言语音进行较好的识别,导致方言语音识别效果差的问题,本发明可对方言语音进行较好的识别,提升方言语音识别效果。
  • 音频数据处理方法、智能语音系统以及智能语音设备-202210360494.9
  • 梁嘉栋;杨冬生;刘柯;肖金富;周欣欣 - 比亚迪股份有限公司
  • 2022-04-07 - 2023-10-24 - G10L15/00
  • 本申请实施例公开了一种音频数据处理方法、智能语音系统以及智能语音设备,该方法包括:当接收到目标音频数据时,语音识别模块将目标音频数据发送给目标语音识别引擎,并将目标语音识别引擎输出的音频识别数据发送给消息总线,以通过消息总线传输给语义解析模块。语义解析模块基于各语义解析引擎适配的业务类型、设备工作状态以及音频识别数据所属业务类型,将音频识别数据发送目标语义解析引擎并将其输出的语音命令对象信息发送消息总线。交互管理模块基于语音命令对象信息和语音交互信息生成交互响应数据以完成语音交互。采用本申请,可提高音频数据处理的准确率,增强智能语音交互的用户体验。
  • 一种语音验证方法、装置、设备及介质-202310822921.5
  • 高杨;葛帅;司玄 - 中国电信股份有限公司技术创新中心;中国电信股份有限公司
  • 2023-07-05 - 2023-10-20 - G10L15/00
  • 本申请公开了一种语音验证方法、装置、设备及介质,用以提高语音验证方式的安全性、破解难度以及可信度。本申请可以在接收到语音验证码生成指令时,基于获取到的用户所偏好方言的信息,确定目标方言类型;从任一模板语音对应的模板文本中选取至少一个第一目标字段;基于预先保存的所述目标方言类型的方言语音与文本的对应关系,确定与第一目标字段相匹配的文本所对应的第一目标方言语音;将模板语音中第一目标字段的语音替换为第一目标方言语音,得到语音验证码。由于本申请可以在语音验证码中加入方言,基于该语音验证码进行身份验证,可以实现提高语音验证方式的安全性、破解难度以及可信度的目的。
  • 一种多方言智能语音交互方法、智能座舱、电子设备-202310932869.9
  • 刘玲;张厚鑫;魏玉玲 - 中国第一汽车股份有限公司;一汽(北京)软件科技有限公司
  • 2023-07-27 - 2023-10-20 - G10L15/00
  • 本发明公开了一种多方言智能语音交互方法、智能座舱、电子设备,方法步骤包括:采集语音信号,检测语音信号是普通话还是方言;如果当前的语音信号为方言,则进一步判断当前的语音信号与预设的方言类型是否相同;如果当前的语音信号与预设的方言类型相同,则根据当前的语音信号进行语音交互;如果当前的语音信号与预设的方言类型不同,则选择对应的方言进行语音交互。本发明应用于车机,能够在语音交互的过程中无缝切换各种方言与普通话,使车机在执行语义指令时能够实时且高效地正确执行相应的语音搜集,无需用户主动参与切换语音的过程,节省了操作步骤,提高了用户体验感,让车机语音交互更加流畅。
  • 一种混合巴基斯坦口音的英语语音判别方法-202311045209.5
  • 邢晓天;马翼平;王学强 - 中航华东光电(上海)有限公司
  • 2023-08-17 - 2023-10-20 - G10L15/00
  • 本发明公开了一种混合巴基斯坦口音的英语语音判别方法,属于语音识别技术领域,包含以下步骤:步骤1、数据准备:通过加大机载指令术语的训练权重来提升对相关机载术语捕捉的敏感度;步骤2、特征提取:对语音信号进行数字化处理,去除冗余信息,将语音信号中能代表语音数据的信息提取出来;步骤3、模型训练,步骤4、口音判断,本发明针对巴基斯坦口音英语与通用英语的口音识别提出了有效的解决方法,可以在语音识别系统的前端选择是否使用巴基斯坦口音英语专用的识别模型,可以有效地提高多地区口音英语机载语音识别模型的识别效率。同时,也为其他语种口音变体的英语机载识别研发提供支撑。
  • 一种语音识别方法和装置、及存储介质-202211466722.7
  • 李慧慧;张世磊;侯雷静 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2022-11-22 - 2023-10-20 - G10L15/00
  • 本申请实施例提供了一种语音识别方法,该方法包括:获取待识别语音数据;其中,待识别语音数据为包括至少一种方言的语音数据;确定待识别语音数据对应的语音声学特征和方言嵌入特征;将语音声学特征和方言嵌入特征输入至编码网络,获取待识别语音数据对应的特征序列;其中,编码网络包括至少一层编码器,至少一层编码器均包括门控网络,共享专家网络以及多个私有专家网络;根据特征序列生成待识别语音数据对应的识别结果,通过编码网络中的门控网络输出的权重值动态选择相对应的私有专家网络对待识别语音数据对应的声学编码特征进行处理,且同时通过共享专家网络可以建模不同方言间的共性特征,以此来提升语音识别的准确率。
  • 一种基于数据分析的语音情感识别方法-202311130170.7
  • 杜永超 - 浙江鑫淼通讯有限责任公司
  • 2023-09-04 - 2023-10-13 - G10L15/00
  • 本发明涉及语音数据分析领域,尤其涉及一种基于数据分析的语音情感识别方法,本发明通过构建语音数据与不同情感标签的关联关系,识别出语音数据中的特异语音数据以及方言特异关键词,在获取待识别语音数据后,尤其在待识别语音为模糊语音数据时,优先考虑将待识别语音数据中方言特异关键词所关联的情感标签确定为所述待识别语音数据的情感标签,并且,若所述待识别语音数据中不存在方言特异关键词,则将待识别语音数据与特异语音数据库中的数据进行拟合,基于拟合结果判定待识别语音数据的情感标签,通过上述步骤,考虑方言特殊音调对情感识别的影响,进而减少方言特殊的音调特征对识别结果造成的影响,提高识别结果的准确性。
  • 一种语音控制的跨屏互动控制方法-202310770962.4
  • 王晓帆 - 上海仙视电子科技有限公司
  • 2023-06-28 - 2023-10-10 - G10L15/00
  • 本发明公开了一种语音控制的跨屏互动控制方法。该语音控制的跨屏互动控制方法,包括以下步骤:获取用户的语音信息并将其转换为文本指令,当文本指令与控制指令的对比结果超过一定阈值,则第二电子设备显示控制指令对应场景;统计并分析出用户体验感指数,再据其分析出新语音识别方法;在下一次语音控制时由用户选择正确的语音识别方法并更新语音识别方法。本发明通过在第一电子设备将控制指令发送给第二电子设备后,第一电子设备计算出用户体验感指数,根据体验感指数分析出新语音识别方法,并在下一次接收语音信息时由用户自行选择正确的语音识别方法,达到了提升用户体验感的效果,解决了用户体验感不好的问题。
  • 语音数据识别方法、装置、系统以及相关设备-202310879083.5
  • 俞科峰;仝建刚;李嫚;张利平;朱应钊 - 中国电信股份有限公司技术创新中心;中国电信股份有限公司
  • 2023-07-17 - 2023-10-10 - G10L15/00
  • 本公开提供了一种语音数据识别方法、装置、系统以及相关设备,涉及语音处理技术领域。该方法包括:获取待识别语音数据,其中,待识别语音数据为单一语言语音数据或复合语言语音数据,单一语言语音数据为包含一种语言的语音数据,复合语言语音数据为包含多种语言的语音数据;若待识别语音数据为单一语言语音数据,则调用单一型声学模型对待识别语音数据进行识别;若待识别语音数据为复合语言语音数据,则调用复合型声学模型对待识别语音数据进行识别。本公开能够在一定程度上克服相关技术中提供的语音数据识别方案只能实现单一语言识别的技术问题。
  • 语音数据生成方法、装置、电子设备及可读存储介质-202311115711.9
  • 陈东鹏;黄润乾;张伟彬;李亚桐 - 深圳市声扬科技有限公司
  • 2023-08-31 - 2023-10-03 - G10L15/00
  • 本申请公开了一种语音数据生成方法、装置、电子设备及可读存储介质,涉及数据技术领域,应用于电子设备,所述方法包括:获取第一语种的初始语音数据,所述初始语音数据中包括至少一条语音数据;从所述初始语音数据中选择满足指定条件的部分语音数据作为指定语音数据;将所述指定语音数据转换为第二语种的目标语音数据;将所述目标语音数据作为所述第二语种的语音模型的样本数据。可以通过获取第一语种的初始语音数据,将该初始语音数据转换为第二语种的目标语音数据,从而将目标语音数据作为第二语种的语音模型的样本数据,可以较为简单的满足第二语种的语音模型对样本数据的数量的需求。
  • 一种人机交互方法、装置及智能交互终端-202010911735.5
  • 周伟;姜鹏 - 度小满科技(北京)有限公司
  • 2020-09-02 - 2023-09-29 - G10L15/00
  • 本发明提供了一种人机交互方法、装置及智能交互终端,通过响应于语音交互触发指令,获取用户的语言类型标识信息;确定与语言类型标识信息对应的目标语言类型;选择出与目标语言类型对应的目标语言交互模型;基于目标语言交互模型所具有的目标语言交互模式,识别用户发出的语音信息,向用户发出符合目标语言类型的语音信息。通过识别出用户的目标语言类型,基于与目标语言类型对应的目标语言交互模型与用户进行语音交互,使得智能语音机器人使用用户能够识别的语言类型与用户进行交互,避免用户与智能语音机器人之间出现交流障碍,提高人机交互的效果,减少用户与智能语音机器人之间的交互次数,减轻智能语音机器人侧处理器的负担。
  • 基于语音成分的细粒度映射的语言语音处理-201911003118.9
  • 李旻;李蕴瑶;M·D·哈尔佩恩;S·诺尔曼 - 国际商业机器公司
  • 2019-10-22 - 2023-09-22 - G10L15/00
  • 本公开涉及基于语音成分的细粒度映射的语言语音处理。在一个实施例中,一种计算机实现的方法包括获取特定语言的第一单词的发音以及识别该发音的语音成分。该方法包括获取针对在第一单词的发音中所识别的语音成分的类型的语音成分映射表,以及使用语音成分映射表将语音值分配给所识别的语音成分。对于第二单词,该方法包括获取第二单词的发音,识别该发音的语音成分,以及将语音值分配给所识别的语音成分。另外,该方法包括使用第一单词和第二单词的相应的识别的语音成分的分配语音值来计算第一单词的所识别的语音成分与第二单词的所识别的语音成分之间的语音距离,以及将计算出的语音距离存储在文件中。
  • 拍摄方法、装置、电子设备及存储介质-202210196027.7
  • 高川;张海坡;董成鹏 - 北京小米移动软件有限公司
  • 2022-03-01 - 2023-09-15 - G10L15/00
  • 本公开是关于拍摄方法、装置、电子设备及存储介质,方法包括:获取麦克风阵列采集的目标物的声音信号;根据所述声音信号,确定所述目标物所在的方位信息;根据所述方位信息调节镜头,以使镜头的对焦区域对准目标物,并获取包含所述目标物的图像。本公开的方法中,基于目标物的声音确定其方位信息,结合目标物的方位信息,动态调节镜头的角度或位置,从而有利于实现对焦,获得质量好的拍摄图像。
  • 方言语音指令的识别方法、装置及电子设备-202310879109.6
  • 夏艳 - 中国工商银行股份有限公司
  • 2023-07-17 - 2023-09-15 - G10L15/00
  • 本申请公开了一种方言语音指令的识别方法、装置及电子设备。涉及生物识别领域,该方法包括:获取目标对象账号发送的方言语音信息;在方言语音信息的目标声纹特征与目标对象账号的账号标识匹配的情况下,利用方言语音识别模型对方言语音信息进行语义识别,得到与方言语音信息对应的目标文本信息,方言语音识别模型为利用样本方言语音信息预先训练完成的神经网络模型;获取与目标文本信息对应的目标指令,并发送用于响应目标指令的响应语音信息。通过本申请,解决了相关技术中智能终端或工作人员无法准确识别方言语音指令的问题。
  • 音频处理方法、装置、设备、存储介质及程序产品-202210203766.4
  • 冯鑫 - 腾讯科技(深圳)有限公司
  • 2022-03-03 - 2023-09-12 - G10L15/00
  • 本申请提供了一种音频处理方法、装置、设备、存储介质及程序产品,涉及音视频技术领域。该方法包括:获取第一音频;对第一音频进行语音定位,获得第一音频中的至少一个目标音频段落;该目标音频段落是包括语音的音频段落;获取至少一个目标音频段落的音频特征;基于至少一个目标音频段落的音频特征进行语种识别,获得至少一个目标音频段落各自的语种类型;基于至少一个目标音频段落各自的语种类型,获取第一音频的语种类型。通过上述方法,避免了获取第一音频的语种类型的过程中的人工标注过程,简化了语种识别的过程,提高了获取音视频内容的语种类型的效率,提高了获取语种类型的准确性。
  • 基于视听多模态融合的土家语语音识别方法-202310763651.5
  • 于重重;徐小龙;钱兆鹏;于佳圻 - 北京工商大学
  • 2023-06-27 - 2023-09-05 - G10L15/00
  • 本发明公布了一种基于视听多模态融合的土家语语音识别方法,构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;构建的模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块用于调控各模态的优化速度,结合视听融合模块完成模型的训练;使用链接时序分类CTC方法实现待识别语音的识别。本发明能够提高土家语语音识别的准确率。
  • 一种基于大数据的方言语音识别系统-202310663719.2
  • 李立强;陈金明 - 安徽迪科数金科技有限公司
  • 2023-06-06 - 2023-09-01 - G10L15/00
  • 本发明公开了一种基于大数据的方言语音识别系统,涉及语音识别技术领域,解决了现有技术针对每个语音指令匹配对应的语音特征,影响方言识别效率,降低了智能终端控制体验的技术问题;本发明基于目标特征组对实时语音数据进行语音特征提取,获取方言特征组;根据方言特征组确定实时语音数据对应的方言类型,并结合与方言类型相匹配的语言转换模型完成方言识别;本发明设计了一种通用可靠的方言识别系统,不需要提前录制语音数据,提升用户体验;本发明根据方言识别系数筛选出至少一个语音特征组,标记为目标特征组;本发明通过对若干多源语音数据的分析,确定最贴合的目标特征组,通过目标特征组实现的方言识别应用范围更广,识别的内容更加丰富。
  • 语音识别方法、装置、计算机设备及存储介质-202310673595.6
  • 范志赟;董林昊;马泽君 - 北京有竹居网络技术有限公司
  • 2023-06-07 - 2023-08-29 - G10L15/00
  • 本公开涉及语音识别技术领域,公开了语音识别方法、装置、计算机设备及存储介质,本公开提供的方法包括获取待识别语音;基于所述待识别语音进行编码处理,得到声学编码信息;对所述声学编码信息分别进行对应于各个语种的信息权重预测,得到与所述语种一一对应的信息权重,所述信息权重包括所述语种的声学信息以及边界;融合所述各个语种的信息权重,得到融合信息权重;基于所述融合信息权重进行解码处理,得到语音识别结果。该方法通过对各个语种进行独立的声学边界的预测,能够在语音识别过程中区分各个语种的声学边界,提高了语音识别结果的准确性。
  • 方言数据自动筛选识别方法、装置、设备及其存储介质-202310714727.5
  • 魏韬;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-06-15 - 2023-08-29 - G10L15/00
  • 本申请实施例属于识别过程优化技术领域,涉及一种方言数据自动筛选识别方法、装置、设备及其存储介质,用于辅助电销人员进行方言数据先验识别,包括将待测语音序列输入预训练完成的混合结构型ASR语音识别模型,获取第一文本序列;将待测语音序列输入预训练完成的端到端型ASR语音识别模型,获取第二文本序列;计算第一文本序列和第二文本序列的编辑距离;通过所述编辑距离识别待测语音序列是否为方言序列。以普通话的两种不同ASR模型,识别相同的语音序列,若为普通话,都可测出,编辑距离较小,若为方言,则两个ASR模型识别结果差异较大,编辑距离较远,既解决了搜集大批量方言语料较为困难的问题,也克服了必须以方言语料训练识别模型的技术偏见。
  • 多人多语种识别和翻译方法与装置-202110574284.5
  • 李健;袁逸晨;陈明;武卫东 - 北京捷通华声科技股份有限公司
  • 2021-05-25 - 2023-08-29 - G10L15/00
  • 本申请提供了一种多人多语种识别和翻译方法与装置。该方法包括:获取整段音频数据,整段音频数据为多个发声者发出的,且各发声者发出的音频数据的语种包括至少一种;将整段音频数据,按照发声者的不同划分为多段第一子音频数据;将各段第一子音频数据,按照语种的不同划分为至少一段第二子音频数据;将各段第二子音频数据转换为文字数据;将各文字数据翻译为目标语言。采用本方案实现了对多人多语种的整段音频数据的准确识别和翻译。
  • 一种语种识别方法和设备-202010443438.2
  • 李旭滨;范红亮 - 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
  • 2020-05-22 - 2023-08-25 - G10L15/00
  • 本发明提出了一种语种识别方法和设备,该方法包括:将待识别音频分为语音部分与非语音部分;将所述语音部分切分为多个语音片段;对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
  • 一种基于自监督语音表征的方言分类方法和系统-202310733281.0
  • 佘清顺;赵洲;黄俊杰;姜伟昊 - 浙江大学
  • 2023-06-20 - 2023-08-22 - G10L15/00
  • 本发明公开了一种基于自监督语音表征的方言分类方法,属于语音识别领域。获取不同方言的音频样本,提取原始波形序列;使用预训练模型进一步提取语音表征序列并降采样,得到帧级别输入序列;使用Transformer编码器对帧级别输入序列进行编码;使用注意力聚合方法将编码结果进行池化统计,得到句子级别编码序列;对句子级别编码序列线性投影,得到样本预测概率;训练Transformer编码器、以及注意力聚合方法和线性投影中的可训练参数,基于训练后的参数预测音频中的方言类型。本发明使用自监督语音表征作为输入特征并在Transformer中引入基于内容的自注意力机制来提取音频的全局和局部信息,提高了分类准确率。
  • 多语种数据处理方法、装置、计算机设备及存储介质-202310784523.9
  • 陈志男;郑德飞;叶巧;徐创业 - 深圳市安保医疗科技股份有限公司
  • 2023-06-28 - 2023-08-22 - G10L15/00
  • 本发明涉及信息处理技术领域,本发明公开了一种多语种数据处理方法、装置、计算机设备及存储介质,所述方法包括:通过接收收对待设置对象进行语种切换的设置指令,获取待切换语种数据中的字体数据,根据目标语种确定与字体数据对应的目标字体,根据目标语种确定与待切换语种数据对应的目标词条,获取待切换语种数据中的语音数据,根据目标语种以及目标词条确定与语音数据对应的目标语音,根据目标字体、目标词条及目标语音生成目标数据,若目标数据有效,则根据目标数据对待设置对象进行语种切换处理。本发明实现了对待切换语种的识别及转换,确保了待切换语种数据处理的准确性和可靠性,提高了多语种数据处理的扩展性和灵活性。
  • 一种基于多模态的蒙古语韵律自动标注方法-202310145902.3
  • 刘瑞;胡一帆;左昊麟 - 内蒙古大学
  • 2023-02-21 - 2023-08-22 - G10L15/00
  • 本发明公开了一种基于多模态的蒙古语韵律自动标注方法,包括以下步骤:对蒙古文BERT模型进行预训练,得到训练好的蒙古文BERT模型;将训练好的蒙古文BERT模型作为文本特征提取模块,并从待标注的文本信息中,提取话语级文本特征ht;对基于自监督的蒙古语语音特征提取模型进行预训练,得到训练好的语音模型;将训练好的语音模型作为语音特征提取模块,并将待标准的语音信号输入至语音特征提取模块,得到原始语音特征ha;使用基于跨模态注意力的特征融合结构,对话语级文本特征ht和原始语音特征ha进行处理,计算韵律边界的概率分布,完成蒙古语韵律自动标注,填补了领域空白,相较于人工标注蒙古语韵律,极大地节省了标注成本。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top