[发明专利]一种基于ArcFace的语音识别方法及装置有效

申请号：	201811400260.2	申请日：	2018-11-22
公开（公告）号：	CN109377984B	公开（公告）日：	2022-05-03
发明（设计）人：	李鹏;吉瑞芳;蔡新元	申请（专利权）人：	北京中科智加科技有限公司
主分类号：	G10L15/10	分类号：	G10L15/10;G10L15/06
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹;李相雨
地址：	100086 北京市海淀区知春路***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供一种基于ArcFace的语音识别方法及装置，所述方法包括：获取待识别语音，并提取所述待识别语音的低层帧级特征；根据所述低层帧级特征，提取身份特征向量；从预设语音库中获取与所述身份特征向量相似的目标身份特征向量，所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系；所述对应关系是根据预先训练过的预设模型得到的；所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的；根据所述对应关系，确定与所述目标身份特征向量对应的目标身份信息，并将所述目标身份信息作为所述待识别语音的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置，能够准确地对各种类型的语音进行识别。
搜索关键词：	一种基于 arcface 语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于ArcFace的语音识别方法，其特征在于，包括：获取待识别语音，并提取所述待识别语音的低层帧级特征；根据所述低层帧级特征，提取身份特征向量；从预设语音库中获取与所述身份特征向量相似的目标身份特征向量，所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系；其中，所述对应关系是根据预先训练过的预设模型得到的；所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的；根据所述对应关系，确定与所述目标身份特征向量对应的目标身份信息，并将所述目标身份信息作为所述待识别语音的识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中科智加科技有限公司，未经北京中科智加科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811400260.2/，转载请声明来源钻瓜专利网。

上一篇：一种基于语音交互的骚扰电话拦截方法及相关设备
下一篇：一种领域词的语音识别增强方法和装置

同类专利

车辆的语音控制方法、电子设备和计算机可读存储介质-202310653732.X
发明人：冯泯;陈立荣;高晓辉 -专利权人：博泰车联网（南京）有限公司
申请日： 2023-06-02 - 公布日： 2023-08-29 - 主分类号： G10L15/10
摘要：本申请实施方式涉及车辆的语音控制方法、电子设备和计算机可读存储介质，涉及车辆技术领域。该车辆的语音控制方法包括：响应于接收到用户的免唤醒指令，对所述免唤醒指令进行解析以获取包括解析指令的解析结果；响应于确定出所述解析指令不满足预设执行条件，获取与所述解析指令对应的第一设备的状态以及与所述解析指令发音相同或发音相似的相似指令对应的第二设备的状态；以及根据所述第一设备的状态和所述第二设备的状态控制与目标指令对应的设备执行所述目标指令，所述目标指令为所述解析指令或所述相似指令。

语音识别结果纠错方法及装置、计算机可读存储介质-202011322395.9
发明人：胡洪涛;徐景成;胡珉;朱耀磷;李想;彭成高;黄毅;李赫男 -专利权人：中移互联网有限公司;中国移动通信集团有限公司
申请日： 2020-11-23 - 公布日： 2023-08-15 - 主分类号： G10L15/10
摘要：本申请实施例公开了一种语音识别结果纠错方法及装置、计算机可读存储介质，该方法包括：将用户输出语音对应的语音识别结果的文本转换为对应的第一拼音序列；根据所述第一拼音序列和预定语料库中的多个第二拼音序列的编辑距离，以及所述用户将所述第一拼音序列中各个第一音节混淆为第二拼音序列中与第一音节对应的第二音节的混淆概率，分别确定所述多个第二拼音序列与所述第一拼音序列的相似度；基于相似度最高的第二拼音序列对所述用户的语音识别结果进行纠错。本申请实施例的方案可以提高语音识别的纠错能力。

错误诊断和反馈-202111258233.8
发明人：吴文珊;夏炎;毛绍光;宋歌平;田江森 -专利权人：微软技术许可有限责任公司
申请日： 2021-10-27 - 公布日： 2023-04-28 - 主分类号： G10L15/10
摘要：根据本公开的实现，提出了一种用于错误诊断和反馈的方案。在该方案中，获取信号序列；基于学习对象，确定信号序列的目标位置处存在错误；检测信号序列的目标位置对应的目标错误模式。如果目标错误模式与目标位置相关联的多个预定错误模式中的预定错误模式匹配，从多个预定错误模式分别对应的多个反馈中选择与所匹配的预定错误模式对应的目标反馈；以及提供目标反馈。通过该方案，可以提供关于不同错误模式的更准确和有效的反馈。

一种基于拼音转写的校正方法、装置和存储介质-202211437708.4
发明人：翟飞飞;刘宇宸 -专利权人：北京中科凡语科技有限公司
申请日： 2022-11-16 - 公布日： 2023-03-21 - 主分类号： G10L15/10
摘要：本发明公开一种基于拼音转写的校正方法、装置和存储介质，属于语音识别技术领域。该基于拼音转写的校正方法，包括以下步骤：S1、将ASR识别结果的噪音词移除并抽取带数字的专有名词，并在ASR识别结果中用第一标识符代替所述专有名词；S2、提取数字参数，同时在ASR识别结果中把提取的所述参数用第二标识符替换所述参数；S3、将专有名词替换ASR识别结果中的第一标识符；S4、将ASR识别结果转化成SSC编码，并匹配指令集中最相似的指令作为最优指令，得到校正结果；步骤S5、判断所述校正结果的参数数目，根据所述参数数目的数值，得到最终校正结果或者进行校正处理。该方法能够避免数字出现同音错误。

语音信息识别方法及装置-202011552655.1
发明人：陈明翔;郭流芳;常战国 -专利权人：贝壳技术有限公司
申请日： 2020-12-24 - 公布日： 2023-02-17 - 主分类号： G10L15/10
摘要：本发明提供一种语音信息识别方法及装置，该方法包括：接收输入的原始语音识别文本，对原始语音识别文本进行扩增得到扩增语音识别文本；接收输入的至少一种语言特征的特征关键词，对特征关键词进行扩增得到扩增关键词；将各个语言特征的扩增关键词分别在扩增语音识别文本中进行搜索得到对应于各个语言特征的模糊匹配分数；根据各个语言特征的匹配分数得到原始语音识别文本是否符合各个语言特征的结果；其中，匹配分数包括模糊匹配分数。本发明提供的语音信息识别方法及装置，通过对特征关键词及原始语音识别文本进行扩增后匹配，根据匹配分数得到原始语音识别文本是否符合各个语言特征的结果，提高了语音信息识别的准确性及通用性。

语音识别装置及语音识别方法-201680090070.8
发明人：山室庆太 -专利权人：三菱电机株式会社
申请日： 2016-10-19 - 公布日： 2022-12-09 - 主分类号： G10L15/10
摘要：本发明的目的在于提供一种能够抑制用户不想要的检索功能被误执行的技术。语音识别装置具备获取部、推测部、执行频度累计部和控制部。获取部获取语音，推测部通过对获取部所获取的语音进行识别处理，来推测应当执行的检索功能。执行频度累计部累计检索功能的执行频度，控制部参照推测部推测出的检索功能即推测检索功能的执行频度，来控制推测检索功能的执行。

电话随访语音识别方法、装置及系统-202111073923.6
发明人：杨涛 -专利权人：北京左医科技有限公司
申请日： 2021-09-14 - 公布日： 2022-11-25 - 主分类号： G10L15/10
摘要：本发明提供一种电话随访语音识别方法、装置及系统，属于智能医疗技术领域。所述方法包括：为患者推送随访问题，并回收患者针对各随访问题的语音答案信息；对所述语音答案信息进行语音识别，并根据预设纠偏模型对语音识别后的答案信息进行分析，确定各随访问题的准确答案；输出包含各随访问题及各随访问题对应的准确答案的随访结果报告。本发明方案利用多种纠偏模型对电话随访过程中语音识别的模糊答案进行纠偏，根据行业规律和随访问题进行关联纠偏，保证语音识别内容的准确性。

语义理解方法、装置、电子设备及可读存储介质-202210783990.5
发明人：韩奇哲;李全忠;佘光磊 -专利权人：普强时代（珠海横琴）信息技术有限公司
申请日： 2022-07-05 - 公布日： 2022-11-22 - 主分类号： G10L15/10
摘要：本发明公开了一种语义理解方法、装置、电子设备及存储介质，其中该方法包括：获取第一语音，将第一语音与预置句式进行匹配，得到第一语义集合；根据第一语义集合中每个第一语义元素对应的第一相似度，选取第一相似度大于第一阈值的第一语义元素作为候选语义集合；对候选语义集合进行第一处理，得到每个候选语义元素对应的回复内容和目标置信度；根据每个候选语义元素的目标置信度的大小，将数值最高的目标置信度对应候选语义元素以及对应的回复内容作为目标结果，以提高语义理解的灵活性。本发明可广泛应用于语义理解领域。

词语检测系统、词语检测方法以及记录介质-201811068253.7
发明人：藤村浩司 -专利权人：株式会社东芝
申请日： 2018-09-13 - 公布日： 2022-11-15 - 主分类号： G10L15/10
摘要：本公开涉及词语检测系统、词语检测方法以及记录介质。本发明提供一种词语检测系统、方法、以及记录介质，其能够正确并且尽快地从语音数据检测出词语。一个实施方式的词语检测系统具备语音取得部、第一计算部、保存部、检测部、第二计算部、输出部，在第一计算部中将通过语音取得部取得的多个帧的语音数据与词语的参照模型进行匹配，计算帧评分，保存在保存部中，根据帧评分计算词语的第一评分，在检测部中根据第一评分从语音数据检测词语，在第二计算部中根据检出词语的时间信息和帧评分计算词语的第二评分，在输出部中根据多个词语的第二评分的比较结果，决定输出对象词语。

一种确定失语类型的方法及装置-201911325531.7
发明人：薛志东;彭朋;唐静;区士颀;薛森原 -专利权人：华中科技大学鄂州工业技术研究院;华中科技大学
申请日： 2019-12-20 - 公布日： 2022-11-04 - 主分类号： G10L15/10
摘要：本发明提供确定失语类型的方法及装置，方法包括：根据标准语音时序图像、所述失语者语音时序图像、失语者的专业评分以及失语者的语音评分确定数据训练集；基于卷积神经网络及长短期记忆网络对数据训练集进行训练，确定出失语评分模型；接收所述当前失语者的语音视频，利用语音评测算法对当前失语者语音视频的语音进行评测，获取第一评分；利用失语评分模型对语音视频进行评测，获取第二评分；根据第一评分及第二评分确定当前失语者的失语类型；因失语评分模型是根据发音口型及发音音频进行确定的，利用失语评分模型确定出的第二评分的精度可以得到保证，因此可以准确地确定出失语者的失语类型，进而可以提供最适合的训练方案，提高训练效果。

基于语音识别的预警方法、装置、终端设备及存储介质-202211068240.6
发明人：郝德月;刘岩;苏剑飞;王杰;杨实;王治宇;黄智豪;吴林;胡婕;赵思媛;汤芯怡 -专利权人：珠海翔翼航空技术有限公司
申请日： 2022-09-02 - 公布日： 2022-09-30 - 主分类号： G10L15/10
摘要：本申请涉及语音数据处理技术领域，具体涉及一种基于语音识别的预警方法、装置、终端设备及存储介质；包括以下方法：获取语音数据，并提取所述语音数据中的语音预警状态活动特征信息；将所述语音预警状态活动特征信息与预设的语音预警活动特征数据库进行比对，所述语音预警活动特征数据库中配置有多个预警活动特征信息；比较所述语音预警状态活动特征信息与多个所述预警活动特征信息中任一所述特征信息的相似度；基于相似度阈值确定对应的预警活动特征信息，并确定预警行为；本发明基于多次的识别过程可以将识别过程中的历史数据进行再次保存至样本数据集，针对于下一次的识别过程提供丰富的数据，进一步的提高了识别的准确度。

一种音频数据的识别方法和装置-202210545649.6
发明人：彭毅;雪巍;于善勇;丁国宏;范璐 -专利权人：京东科技信息技术有限公司
申请日： 2022-05-19 - 公布日： 2022-08-30 - 主分类号： G10L15/10
摘要：本发明公开了一种音频数据的识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：将音频数据输入至第一识别模型，根据第一识别模型的输出结果确定多个优选识别结果和最优置信度分数；按照对应的最优置信度分数小于预设第一阈值的选择标准，从音频数据中选出输入至目标识别模型的目标音频数据，以通过目标识别模型得到第二识别结果；将多个优选识别结果输入至序列转换模型中，得到多个序列转换结果；根据多个序列转换结果对第二识别结果进行校验，在校验通过的情况下，将第二识别结果作为音频数据的目标识别结果。该实施方式能够无需依赖第三方语音识别模型的辅助信息，提高音频数据的识别效率和准确率，降低人工成本。

语音识别方法、装置、计算机设备和存储介质-202210446103.5
发明人：孙景余;李宝祥;钟贵平;周鼎皓 -专利权人：北京市商汤科技开发有限公司
申请日： 2022-04-26 - 公布日： 2022-08-16 - 主分类号： G10L15/10
摘要：本公开提供了一种语音识别方法、装置、计算机设备和存储介质，其中，该方法包括：基于待识别的语音序列中的语音特征的数量，确定所述语音序列对应的查询矩阵中的每个初始查询特征的第一余弦权重，和语音序列对应的键矩阵中的每个所述初始键特征的第二余弦权重；基于第一余弦权重和第二余弦权重，确定每个初始查询特征分别与各个初始键特征之间的相似度；针对语音序列中的每个语音特征，基于语音特征对应的初始查询特征与各个初始键特征之间的相似度、以及语音序列对应的值矩阵中的每个目标值特征，确定语音特征对应的注意力特征；基于语音序列中各个语音特征分别对应的注意力特征，确定语音序列对应的语音识别结果。

基于STO阵列和动态时间规划算法的语音识别方法-202210486890.6
发明人：崔凯;周铁军;李海 -专利权人：杭州电子科技大学
申请日： 2022-05-06 - 公布日： 2022-08-09 - 主分类号： G10L15/10
摘要：发明公开了基于STO阵列和动态时间规划算法的语音识别方法。该方法包括利用STO阵列对语音信号的处理以及用改良后的动态时间规划算法进行识别。所述的STO可以在无外加磁场下产生稳定的微波信号。所述方法，首先将信号进行时域预处理，然后进行快速傅立叶变换，再经过计算将功率谱分段转换为电流信号并通入STO阵列，得到各段电流对应的输出频率作为特征矢量。最终利用改良后的动态时间规划算法处理特征矢量，实现识别。该方法利用纳米级的STO器件构造的阵列，结合了STO其可无磁场翻转以及频率的高可调性等特点，并对算法加以改良，对距离限制并且增大训练库，实现语音识别硬件改善系统，有望实现高集成度且高识别率的语音识别。

语音识别方法、装置、终端及存储介质-202010405131.3
发明人：黄族良;陈昊亮 -专利权人：广州国音智能科技有限公司
申请日： 2020-05-13 - 公布日： 2022-08-09 - 主分类号： G10L15/10
摘要：本申请公开了一种语音识别方法、装置、终端和计算机可读存储介质，语音识别方法通过获取移动终端接收到的语音数据和所述移动终端的属性信息，其中，所述移动终端和网络服务器通信连接；将所述语音数据和所述属性信息发送至预设语音识别模型；基于所述语音数据、所述属性信息和所述预设语音识别模型，确定所述语音数据的识别时间，其中，所述识别时间为识别所述语音数据需要的时间；基于所述识别时间和预设时间阈值，判断是否将所述语音数据发送至所述网络服务器进行识别，实现了根据识别时间和预设时间阈值的关系确定是否由网络服务器进行语音识别，从而减少了网络服务器的工作压力和对网络资源的占据，并且节约了移动终端的流量。

信息处理系统、信息处理设备、信息处理方法及程序-202080079054.5
发明人：粟井昌一 -专利权人：索尼集团公司
申请日： 2020-11-10 - 公布日： 2022-07-08 - 主分类号： G10L15/10
摘要：提供了一种信息处理系统，包括：信息处理设备(20)和回放设备(10)。该信息处理设备包括：第一检测单元(204)，其从收集的声音中检测由回放设备叠加在声音上的音频处理；指定单元(206)，其基于已检测的音频处理来指定声音的发声主体；以及判定单元(208)，其基于指定的结果来判定是否执行包括在声音中的命令。

无侵入式语音测试方法及装置-201911309691.2
发明人：何龙;秦以南 -专利权人：思必驰科技股份有限公司
申请日： 2019-12-18 - 公布日： 2022-07-08 - 主分类号： G10L15/10
摘要：本发明公开一种无侵入式语音测试方法，包括：配置操作指令信息；根据配置的操作指令信息获取测试目标的图像信息；对获取的测试目标的所述图像信息进行图像识别生成第一测试结果存储。本发明还公开了一种无侵入式语音测试装置，根据本发明公开的方法和系统可以实现通过无侵入的方式进行测试等操作，大大的提高了测试效率，并且操作简单、方便，普通人员即可完成测试，节省人力成本。

一种基于融合相似度计算的语音指令映射方法及系统-202210278882.2
发明人：赵崟江;姜卫平;李国华;郭忠武;殷松迁;张家斌;韩煜 -专利权人：北京博汇数据科技有限公司
申请日： 2022-03-21 - 公布日： 2022-07-01 - 主分类号： G10L15/10
摘要：本发明公开了一种基于融合相似度计算的语音指令映射方法及系统，通过语音识别、拼音校检、关键词提取、融合相似度计算等手段，大大提升了语音指令映射准确率，用户表达更灵活，且支持以高性能部署端侧设备，具有较好的应用优越性。将用户的口语化表达，精准地映射到标准指令，使用户不拘泥于标准指令表达，控制设备更加智能与人性化。同时该算法具有较高的效率，在端侧设备上能够以较低延迟匹配最佳指令。此外，该算法通用性较强，智能交互语音产品中均可使用。

一种句子发音测评的方法、装置及可读存储介质-202210278116.6
发明人：王佳珺;唐浩元;代大明;王欢良 -专利权人：苏州奇梦者科技有限公司
申请日： 2022-03-21 - 公布日： 2022-06-28 - 主分类号： G10L15/10
摘要：本发明提供了一种句子发音测评的方法、装置及可读存储介质。该方法包括：基于目标词序列和高频单词集合构建含权重的词间解码网络；对待评测音频进行语音识别，得到候选解码路径集合；遍历当前候选解码路径集合对应所有可能的词序列，得到和目标文本具有最小编辑距离的新候选词序列集合，进一步在候选词序列对应的候选解码路径中选择解码得分最高的路径作为识别最优路径输出。本发明能在兼顾多读/漏读/错读单词评分的同时，尽可能地减少高分单词的评分错误。

对话分析系统-202180004158.4
发明人：关根洁 -专利权人：互动解决方案公司
申请日： 2021-01-19 - 公布日： 2022-06-21 - 主分类号： G10L15/10
摘要：本发明提供一种对话分析系统。对话分析系统包含：语音分析部(3)，其用于分析对话中所包含的内容；话题把握部(5)，其用于把握对话的话题；话题相关修正用语存储部(7)，其用于按照每个话题来存储待进行语音识别的发音或语音识别出的用语以及与待进行语音识别的发音或语音识别出的用语相关的候选修正用语；和对话修正部(9)，其用于修正由语音分析部(3)分析过的对话，对话修正部(9)使用话题把握部(5)把握到的对话的话题来从话题相关修正用语存储部(7)读取候选修正用语并对语音分析部(3)分析过的对话进行修正。据此，能够提供一种能通过比现有技术更简单的作业来修正语音识别的错误的系统。

一种基于一维假设的语音向量距离计算方法-202210329125.3
发明人：何云鹏;温登峰 -专利权人：成都启英泰伦科技有限公司
申请日： 2022-03-31 - 公布日： 2022-06-17 - 主分类号： G10L15/10
摘要：一种基于一维假设的语音向量距离计算方法，以一维数组形式表示声学特征模板和待识别的用户语音深度学习特征；两个一维数组中，从左到右按照音素分类对应的概率分数从高到低排列；设置第一经验数组d_null={d_null(k)}，设置第二经验数组α；距离具体为：如果待识别的用户语音深度学习特征音素分类在声学特征模板的音素分类中，则用户语音深度学习特征音素分类和对应的声学特征模板音素分类的距离为α*│i‑j│，否则距离为d_null(k)。本发明通过将语音向量进行一维简化，按照概率分数高低排序，在兼顾识别性的同时将二维数组运算简化为一维数组运算，计算所需内存大幅减少，适合应用于内存较小的语音识别芯片。

一种基于ArcFace的语音识别方法及装置-201811400260.2
发明人：李鹏;吉瑞芳;蔡新元 -专利权人：北京中科智加科技有限公司
申请日： 2018-11-22 - 公布日： 2022-05-03 - 主分类号： G10L15/10
摘要：本发明实施例提供一种基于ArcFace的语音识别方法及装置，所述方法包括：获取待识别语音，并提取所述待识别语音的低层帧级特征；根据所述低层帧级特征，提取身份特征向量；从预设语音库中获取与所述身份特征向量相似的目标身份特征向量，所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系；所述对应关系是根据预先训练过的预设模型得到的；所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的；根据所述对应关系，确定与所述目标身份特征向量对应的目标身份信息，并将所述目标身份信息作为所述待识别语音的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置，能够准确地对各种类型的语音进行识别。

一种语音信号处理方法及装置-201811075158.X
发明人：邹新生 -专利权人：北京网众共创科技有限公司
申请日： 2018-09-14 - 公布日： 2022-04-26 - 主分类号： G10L15/10
摘要：本发明提供了一种语音信号处理方法及装置，其中，该方法包括：获取朗读提示文本的待测语音信号；将所述待测语音信号分割为N个语音片段；基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度，其中，所述参照语音信号是基于所述提示文本生成的语音信号；根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。通过本发明，解决了相关技术中朗读者按照指示文本朗读，无法检测出朗读的内容是否与指示文本匹配的问题，从而可以确定朗读者是否按照指示文本朗读。

一种基于语音的日语发音评测方法和系统-202011115349.1
发明人：穆德国 -专利权人：北京爱语吧科技有限公司
申请日： 2020-10-19 - 公布日： 2022-04-22 - 主分类号： G10L15/10
摘要：本发明提供了一种基于语音的日语发音评测方法和系统，通过将目标用户对已知的句子文本的发音语音音频输入训练好的双层深度神经网络模型中完成对输入音频文件的日语发音评测。由语音采集系统采集到的目标用户的音频文件首先输入用于实现输入语音文本和已知目标文本之间的对齐的第一层深度神经网络，对齐后的语音文本被拆分为以单词为单位的音频文件进行输出。将所述以单词为单位的音频文件输入到第二层深度神经网络中进行语音识别和测评的操作，得到目标句子单词的发音正确率；基于所述单词的发音正确率对目标用户的日语发音进行评分，得到目标分数。消除由于目标用户重读，连读等发音习惯的主观影响，大大提高了评分的准确率。

口语评测方法、装置、电子设备及计算机可读存储介质-202011095033.0
发明人：丁红卫;林炳怀;王丽园 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-10-14 - 公布日： 2022-04-19 - 主分类号： G10L15/10
摘要：本申请实施例提供了一种口语评测方法、装置、电子设备及计算机可读存储介质，涉及语音识别领域。该方法包括：方获取口语音频，标注口语音频的至少一个元音段；根据至少一个元音段的时长，获得口语音频的节奏特征；根据节奏特征对口语音频的节奏进行评价。本申请实施例在云教育，特别是口语韵律教育中应用时，能够更精确地判断用户口语的节奏水平。

唤醒词识别方法、装置、终端及存储介质-202111590038.5
发明人：李良斌;李志勇;陈孝良 -专利权人：北京声智科技有限公司
申请日： 2021-12-23 - 公布日： 2022-04-08 - 主分类号： G10L15/10
摘要：本公开提供了一种唤醒词识别方法、装置、终端及存储介质，属于人工智能领域。本公开根据目标解码路径上目标边和唤醒路径上对应的目标唤醒边的权重值，计算出每条目标边与对应的目标唤醒边之间的边差异度，进而计算出目标解码路径和唤醒路径之间的路径差异度，从而在两条路径的路径差异度满足阈值条件时，确定待识别语音信息中包含唤醒词。该方法并未将目标解码路径对应的最高解码分数与唤醒路径对应的唤醒分数之间的差值，直接作为判断待识别语音信息中是否包含唤醒词的依据，而是考虑了解码过程中每一步的差异，通过计算每一步的差异累积到两条路径的差异，进而将路径差异作为唤醒词识别依据，提高了唤醒词识别结果的准确性，降低了误唤醒次数。

一种语音关键词识别方法、装置、终端及服务器-201710391388.6
发明人：王珺;黄志恒;于蒙;蒲松柏 -专利权人：腾讯科技（深圳）有限公司
申请日： 2017-05-27 - 公布日： 2022-04-05 - 主分类号： G10L15/10
摘要：本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器，通过从构成第一语音的第一帧序列中确定第一目标帧；从语音关键词包括的关键字序列中确定目标关键字；在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量)，若逐一针对关键字序列中的每个关键字对应的关键字模板，均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功，确定第一语音中包括语音关键词的方式，有效实现了对第一语音中的语音关键词的识别。进一步的，便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时，自动激活与所述语音关键词相应的处理模块。

一种基于复杂场景的语义分析方法及系统-202110675564.5
发明人：张安华;董艳敏;刘畅;李颖;王凯;吉瑞贤;王维;孙晓婕 -专利权人：图观（天津）数字科技有限公司
申请日： 2021-06-18 - 公布日： 2022-03-29 - 主分类号： G10L15/10
摘要：本发明公开了一种基于复杂场景的语义分析方法及系统，通过对第一语音信息进行音频分解，获得第一语音音频分析结果；判断是否包含干扰信息；当包含时根据第一语音音频分析结果，获得第一用户音频信息；根据第一用户音频信息，获得第一音频特征；将第一音频特征、第一语音信息输入音频提取模型中获得第一语音分析结果；获得预设电力服务用语数据库；根据第一语音分析结果、预设电力服务用语数据库，获得第一匹配电力信息；当第一匹配电力信息与第一语音分析结果匹配度满足条件时作为第一语音语义处理结果。解决电力服务的智能客服信息分辨和处理能力不足，尤其在复杂场景中的客户咨询内容存在受到其他干扰信息的影响而数据处理具有偏差的技术问题。

一种音频相似度的确定方法及终端-201811157460.X
发明人：王子亮;郭峰;邹应双 -专利权人：福建星网视易信息系统有限公司
申请日： 2018-09-30 - 公布日： 2022-03-22 - 主分类号： G10L15/10
摘要：本发明公开一种音频相似度的确定方法及终端，分别提取对比音频和标准音频的特征值序列；确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频；根据标准音频的特征值序列统计标准音频的特征总数，计算对齐后的对比音频和标准音频之间的距离，根据所述距离统计特征值匹配的总数，将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度；一方面能够避免直接根据时间轴进行比对造成的偏差，另一方面能够避免直接累加得到匹配值造成的不准确，可以较大地提高确定音频相似度的精确性，提高用户体验，算法简单，通用性广。

一种领域词的语音识别增强方法和装置-201811424174.5
发明人：张明;关磊;王东;刘荣 -专利权人：北京分音塔科技有限公司;清华大学
申请日： 2018-11-27 - 公布日： 2022-03-18 - 主分类号： G10L15/10
摘要：本发明涉及一种领域词的语音识别增强方法和装置，所述方法包括：通过收集的文本语料数据，训练生成第一语言模型；将所述第一语言模型转换为第一解码图；获取所述领域词与所述文本语料数据的相似度；通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；利用所述第二解码图对用户输入的语音进行语音识别处理。本发明所述的方法处理过程简单，通过对领域词权重增强和扩展，提高了对未出现的领域词和信息较少领域词在语音识别中的识别准确率，有利于提高用户体验，也有利于语音识别在更多领域的应用。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于ArcFace的语音识别方法及装置有效

专利文献下载