[发明专利]一种基于语音搜索的内容推荐方法及系统有效

申请号：	201811386839.8	申请日：	2018-11-20
公开（公告）号：	CN109559739B	公开（公告）日：	2022-05-17
发明（设计）人：	徐杨;饶盛添	申请（专利权）人：	广东小天才科技有限公司
主分类号：	G10L15/18	分类号：	G10L15/18;G10L17/00;G06F16/9535;G06Q50/20
代理公司：	上海硕力知识产权代理事务所(普通合伙) 31251	代理人：	郭桂峰
地址：	523851 广东省东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于语音识别技术领域，公开了一种基于语音搜索的内容推荐方法及系统，其方法包括：获取用户连续输入的语音问题；当连续输入相同的语音问题的次数超过预设阈值时，识别连续输入相同的语音问题的用户的身份，并确定语音问题所属的目标学科；当连续输入相同的语音问题的用户为同一用户时，根据用户的身份，查询用户对目标学科的掌握程度；从目标学科中，选取难度等级与掌握程度匹配的学习内容作为目标学习内容，并输出目标学习内容。本发明选取难度等级与掌握程度匹配的学习内容作为目标学习内容推荐给用户，避免输出同一答案，降低学生的学习兴趣；同时，有利于根据学生的实际情况调整指导方法，以发挥学习设备的学习辅导作用。
搜索关键词：	一种基于语音搜索内容推荐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语音搜索的内容推荐方法，其特征在于，包括：获取用户连续输入的语音问题；当连续输入相同的语音问题的次数超过预设阈值时，识别连续输入相同的语音问题的用户的身份，并确定所述语音问题所属的目标学科；当连续输入相同的语音问题的用户为同一用户时，根据所述用户的身份，查询所述用户对所述目标学科的掌握程度；从所述目标学科中，选取难度等级与所述掌握程度匹配的学习内容作为目标学习内容，并输出所述目标学习内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司，未经广东小天才科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811386839.8/，转载请声明来源钻瓜专利网。

同类专利

语音的识别方法、装置、车辆、电子设备和存储介质-202210971581.8
发明人：王涛 -专利权人：北京罗克维尔斯科技有限公司
申请日： 2022-08-12 - 公布日： 2023-10-27 - 主分类号： G10L15/18
摘要：本公开公开了语音的识别方法、装置、车辆、电子设备和存储介质，涉及车辆技术领域，主要技术方案包括：对接收到的待识别语音进行语义识别，确定所述语义识别结果是否包含无效语义；若确定包含无效语义，则确定所述无效语义对应的无效语音时长；若确定所述无效语音时长小于预设时长阈值，则将所述待识别语音中的无效语义丢弃，得到不包含无效语义的语义识别结果。在识别到待识别语音中存在无效语义后，检测无效语义的语音时长，若确定语音时长小于预设时长阈值，则直接将小于预设时长阈值的无效语义丢弃，防止无效音频段给用户的语音对话造成的异常对话提示，提升了用户的语音对话体验。

一种基于意图识别的操作引导方法、装置、设备及介质-202310862573.4
发明人：游佳川;郑力;何诺;覃杨微 -专利权人：重庆农村商业银行股份有限公司
申请日： 2023-07-13 - 公布日： 2023-10-27 - 主分类号： G10L15/18
摘要：本发明公开了一种基于意图识别的操作引导方法、装置、设备及介质，涉及计算机技术领域，包括：接收用户表述的业务办理意图语音，并对业务办理意图语音进行文字转换得到相应的业务办理意图文本；对业务办理意图文本进行意图识别以确定用户的业务办理意图，并确定业务办理意图与预设业务办理意图的意图命中情况，以基于意图命中情况确定出相应的引导语文本；根据引导语文本生成相应的数字人画面和相应的引导语音以引导用户执行相应的操作。本发明通过用户语音输入识别用户业务意图，并通过数字人的互动播报实现人机交互，从而能够提高客户办理路径的定位精确度，并减少路径搜索难度，降低对客户专业业务名称理解的要求，提升了用户体验。

文本处理方法、装置、电子设备和存储介质-202311201003.7
发明人：肖东凌;韩嘉琪;袁刚;林炳怀 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-09-18 - 公布日： 2023-10-27 - 主分类号： G10L15/18
摘要：本申请实施例公开了一种文本处理方法、装置、电子设备和存储介质；本申请实施例可以应用于语音交互技术领域，具体可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,该文本处理方法包括：获取目标请求文本；通过预测模型预测所述目标请求文本中的子请求数量N以及N个子请求文本，其中，N为正整数；通过所述预测模型根据所述子请求数量N以及N个子请求文本，预测所述N个子请求文本的目标指令信息，所述目标指令信息包括意图、领域以及槽位，所述N个子请求文本的目标指令信息用于得到对于所述目标请求文本的响应。本申请能够有效提升文本处理效率。

语音处理方法、装置和介质-202010507500.X
发明人：王颖;李健涛;张丹;刘宝;张硕;杨天府;梁宵;荣河江;李鹏翀 -专利权人：北京搜狗智能科技有限公司
申请日： 2020-06-05 - 公布日： 2023-10-27 - 主分类号： G10L15/18
摘要：本发明实施例提供了一种语音处理方法和装置、一种用于语音处理的装置，其中的方法应用于服务端，具体包括：接收模块，用于接收耳机装置采集的、对话的语音数据；所述对话的参与方包括：至少两个通话用户；确定模块，用于确定所述语音数据对应的提示信息；所述提示信息为依据所述语音数据对应的语义信息、和/或、情绪信息得到；发送模块，用于在对话过程中、和/或、在对话结束后，向耳机装置发送所述提示信息，以使耳机装置输出所述提示信息。本发明实施例能够提升本次对话或后续对话的对话质量。

基于人工智能的语音客服服务方法及系统-202310869836.4
发明人：郭志华;姜洪亮 -专利权人：商客通尚景科技（上海）股份有限公司
申请日： 2023-07-14 - 公布日： 2023-10-24 - 主分类号： G10L15/18
摘要：本发明公开了一种基于人工智能的语音客服服务方法及系统，其方法包括：获取用户的语音通话内容并将其转化为文本内容；对文本内容和语音通话内容进行同步分析，根据分析结果确定用户的通话意图；基于通话意图确定系统回复方式并基于系统回复方式从预设知识库中筛选出标准回复样本；通过标准回复样本配置人工智能客服的对话流程以为用户提供智能语音客服服务。通过确定用户的通话意图和问题类型进而从预设知识库中选择标准回复样本进行人工智能语音客服服务可以根据用户的实时问题来选择最匹配的回复内容进行智能回复，既解决了用户的通话需求同时还保证了通话质量和服务质量，提高了用户的体验感。

车载语义理解的方法、装置、电子设备及可读存储介质-202310912886.6
发明人：邓洪伟;刘楚雄;钟远健 -专利权人：重庆赛力斯新能源汽车设计院有限公司
申请日： 2023-07-24 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本申请涉及智能座舱技术领域，提供了一种车载语义理解的方法、装置、电子设备及可读存储介质。该方法包括：接收输入文本；依照文法解析器中输入文本对应的静态规则与实体匹配方式为输入文本匹配对应的目标车载实体，静态规则包括指定文本与车载实体的标签之间的语义规则，文法解析器包括静态规则、实体匹配方式及多模式匹配方式；依照文法解析器中多模式匹配方式为输入文本匹配对应的目标控制信息；将目标车载实体及目标控制信息作为语义理解结果，按照目标控制信息控制目标车载实体执行相应操作。本申请提供的车载语义理解的方法，能够在车端网络状况不佳或无网络连接时提供流畅的语义理解，以得到语义理解结果，从而提升了用户的使用感受。

语义识别方法、装置、设备及存储介质-202311027280.0
发明人：王路宝 -专利权人：重庆长安汽车股份有限公司
申请日： 2023-08-15 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本申请涉及一种语义识别方法、装置、设备及存储介质，涉及语音识别技术领域。该方法包括：获取待识别语音和采集待识别语音的采集设备的位置信息；确定待识别语音的初始识别结果；初始识别结果包括待识别语音对应的文本内容和待识别语音对应的方言类型；根据方言类型和位置信息，从预设的至少一个方言语义识别模型中确定目标方言语义识别模型；每个方言语义识别模型预置有多个方言词汇的语义结果；目标方言语义识别模型预置的方言词汇与文本内容的匹配度大于第一预设阈值。进一步的，根据目标方言语义识别模型对文本内容进行语义识别，以得到待识别语音的语义结果。由此，可以提高对方言的识别能力。

一种融合用户特征的语义理解方法、装置及电子设备-202310940229.2
发明人：单权强;章翔;康凯凯;祁超 -专利权人：中移（杭州）信息技术有限公司;中国移动通信集团有限公司
申请日： 2023-07-28 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本发明涉及语义识别领域，提供一种融合用户特征的语义理解方法、装置及电子设备。方法包括：获取待处理文本，将待处理文本输入语义理解模型，基于语义理解模型对待处理文本进行第一次语义理解，得到初始语义理解结果；根据初始语义理解结果判断是否需要进行第二次语义理解；若确定需要进行第二次语义理解，则根据初始语义理解结果获取媒资信息，根据媒资信息获取媒资的内容热度特征和目标用户的用户特征；将内容热度特征和用户特征输入语义理解模型进行处理，并结合初始语义理解结果得到最终语义理解结果。本发明提供的一种融合用户特征的语义理解方法可以解决一般语义理解模型无法针对模糊文本输出一个准确的识别结果的问题。

一种语音检测方法、装置、设备及存储介质-202311179043.6
发明人：王雄 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-09-13 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本申请实施例提供一种语音检测方法、装置、设备及存储介质，涉及人工智能技术领域，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景包括：对待检测的语音数据进行特征提取，将获得的初始语音特征保存至指定的存储区域；并提取出在指定历史阶段获得的N个历史语音特征;N为正整数；将初始语音特征和N个历史语音特征，按照相应的语音数据的获取时间顺序进行排序，提取获得的语音特征序列包含的初始语音特征的目标上下文特征；目标上下文特征表征：初始语音特征与N个历史语音特征之间的语义关系；基于目标上下文特征，获得待检测的语音数据的目标分类的目标关键词。此方法用以降低模块内存占用率和消耗的计算资源。

数字人播报视频生成方法及装置-202311008626.2
发明人：肖鹏;李德强;李峰;罗涛 -专利权人：中国工商银行股份有限公司
申请日： 2023-08-10 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本说明书涉及人工智能技术领域，具体地公开了一种数字人播报视频生成方法及装置，其中，该方法包括：接收播报指令；所述播报指令中包括输入文本数据；根据所述输入文本数据，确定待播报的语音数据、唇语数据和手语数据；对所述语音数据、所述唇语数据和所述手语数据进行特征提取，得到语音特征、唇形特征和手语特征；基于所述语音特征、所述唇形特征和所述手语特征，对所述语音数据、所述唇语数据和所述手语数据进行同步，生成目标数字人播报视频。上述方案可以让数字人播报语音的同时使用唇语和手语，可以改善用户体验。

一种用于语音对话平台的语音交互监测方法及装置-201911180977.5
发明人：陶松;宋晓波;邓秀珍 -专利权人：南京创维信息技术研究院有限公司
申请日： 2019-11-27 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本发明提供一种用于语音对话平台的语音交互监测方法及装置，通过获取语音信息，并根据所述语音信息获取文字数据；根据所述文字数据，获取文字指令信息；根据预设的指令校验规则列表对所述文字指令信息进行匹配校验处理，获取校验结果；根据所述校验结果，根据所述校验结果更新所述预设的指令校验规则列表。本发明可以实时监测语音转换后指令是否可执行，快速处理语义指令异常，大大提高了解决语义理解异常的效率，将不良影响降到最低，提高了用户的体验。

主动式外呼智能语音机器人多语种交互方法及装置-202010316400.9
发明人：李训林;王帅;张晋 -专利权人：升智信息科技（南京）有限公司
申请日： 2020-04-21 - 公布日： 2023-10-20 - 主分类号： G10L15/18
摘要：本发明公开了一种主动式外呼智能语音机器人多语种交互方法、装置、计算机设备和存储介质，在用户进入多语种设置场景时，检测用户发出的语音数据，将语音数据发送至各个语言识别引擎，得到各个语言识别引擎返回的识别文本，在各个识别文本均不为空文本时，检测各个识别文本是否携带预设的权重词，将携带权重词的文本确定为有效文本，将有效文本输入NLU系统，在NLU系统中对有效文本进行意图识别，根据意图识别结果触发交互动作，以实现相应智能语音机器人的多语种服务，提高智能语音机器人的价值，从而提升相应的用户体验。

用于确定命令的方法、设备、计算机程序和计算机可读存储介质-202280013836.8
发明人： S·金迪奇 -专利权人：伊顿智能动力有限公司
申请日： 2022-02-15 - 公布日： 2023-10-17 - 主分类号： G10L15/18
摘要：本发明提供了一种用于确定命令的方法，该方法包括：提供伪字集合，其中该伪字集合中的每个伪字表示为发音模型提供的真实字集合中的多于一个真实字；通过声学模型将声学信号映射到音素；根据音素和发音模型确定至少一个输出字；以及根据至少一个输出字、伪字集合和命令字集合确定命令，其中设备根据该命令执行动作。此外，提供了设备、计算机程序和计算机可读存储介质。

一种基于人工智能的精准化语音识别方法及系统-202311098967.3
发明人：周燕;卜峰;陈永强;陈杰;张佳琦 -专利权人：苏州市职业大学（苏州开放大学）
申请日： 2023-08-29 - 公布日： 2023-10-13 - 主分类号： G10L15/18
摘要：本公开的实施例提供了一种基于人工智能的精准化语音识别方法及系统，涉及语音识别技术，本公开实施例所提供的方法包括：采集用户语音数据，并生成采集环境标识；构建语音清洗特征，所述语音清洗特征为基于用户数据库和采集环境标识匹配获得的；构建用户识别特征集合；执行多通道语音识别，多通道语音识别为通过用户识别特征集合对数据清洗后的用户语音数据识别得到；进行语义识别聚合，所述语义识别聚合为通过将多通道语音转换结果进行聚合得到；根据语义识别聚合结果对多通道语音转换结果整合输出语音识别结果。能够解决现有的语音识别技术由于和用户的关联程度较低造成用户语音识别准确率较低的技术问题，可以提高用户语音识别的准确率。

多任务导向的语音语义通信方法、装置及系统-202311152322.3
发明人：田野;汤跃忠;陈云坤;付泊暘 -专利权人：北京中电慧声科技有限公司;中国电子科技集团公司第三研究所
申请日： 2023-09-08 - 公布日： 2023-10-13 - 主分类号： G10L15/18
摘要：本发明公开了一种多任务导向的语音语义通信方法、装置及系统。语音语义通信方法包括：构建语义编码器、信源信道联合编码器、信源信道联合解码器以及多种语义解码器，每种语义解码器对应处理一种语音通信任务；基于语义编码器，从待通信语音信源中提取出多任务通用语义特征；基于信源信道联合编码器，对多任务通用语义特征进行信道编码并通过信道传输至信源信道联合解码器；信源信道联合解码器对完成信道编码的多任务通用语义特征进行信道解码，以获得已解码语义特征；根据目标语音通信任务从多种语义解码器中选择相应的语义解码器，以对已解码语义特征进行语义解码。本发明可以实现单次通信同时完成多个任务，在全流程上实现更高效的语义传达。

语句处理方法、装置、电子设备及可读存储介质-202310780977.9
发明人：王瑞;王涛;刘金财 -专利权人：中国联合网络通信集团有限公司
申请日： 2023-06-28 - 公布日： 2023-09-29 - 主分类号： G10L15/18
摘要：本申请提供一种语句处理方法、装置、电子设备及可读存储介质，当运营商设置的用于语句识别的服务器获取待处理语音数据时，根据待处理语音数据的清晰度，选择计算量不同的第一机器学习模型或者第二机器学习模型，对待处理语音数据中的语句进行分词和词性标注等处理，从而在保证对语句进行处理的准确性的同时，提高对语句进行处理的速度和效率。

一种嘈杂环境下的语义场景生成方法、设备及介质-202310875397.8
发明人：张汉同;丁鑫;马文英 -专利权人：神思电子技术股份有限公司
申请日： 2023-07-17 - 公布日： 2023-09-29 - 主分类号： G10L15/18
摘要：本申请公开了一种嘈杂环境下的语义场景生成方法、设备及介质，方法包括：针对不同主题的嘈杂环境语义场景，采集每个嘈杂环境语义场景下的多个音频流，并对多个音频流进行音频处理，以得到处理后的音频序列；获取音频序列的上下文关系数据，分别得到对应的第一上下文关系数据集和第二上下文关系数据集；对第一上下文关系数据集和第二上下文关系数据集进行模糊综合评价，得到嘈杂环境语义场景对应的综合上下文关系数据集；根据综合评价结果，从综合上下文关系数据集中，筛选出嘈杂环境语义场景对应的目标上下文关系数据，并根据目标上下文关系数据，对嘈杂环境语义场景对应的上下文数据库进行更新，以得到相应的目标语义场景。

用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质-201911020246.4
发明人：金玟澈 -专利权人：纳宝株式会社
申请日： 2015-04-22 - 公布日： 2023-09-29 - 主分类号： G10L15/18
摘要：本发明提供一种用于改进至少一个语义单元的集合的方法、系统和计算机可读记录介质。根据本发明，可通过使用语声或文本来改进至少一个语义单元的集合。

车载语音交互方法、装置、设备及存储介质-202111667890.8
发明人：杨竞喆;孙晓欣;李国华;黄海荣;曹阳 -专利权人：亿咖通（湖北）技术有限公司
申请日： 2021-12-30 - 公布日： 2023-09-26 - 主分类号： G10L15/18
摘要：本申请提供一种车载语音交互方法、装置、设备及存储介质，该车载语音交互方法应用于车载终端，车载终端与车载语音助手通信连接。在检测到车辆内存在语音信号且语音信号的发出者不存在预设对话行为时，若确定车辆内仅有一人且仅有的该一人不具备耳机佩戴特征，则对语音信号进行语义识别，响应于识别结果控制车载语音助手进行语音反馈。否则，进一步判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，响应于判断结果控制车载语音助手进行语音反馈。无需唤醒车载语音助手，便可与车载语音助手随时交互，用户与车载语音助手的交互方式更接近于人与人之间的交互，交互方式简单易行，有效提升了用户使用体验。

一种语音识别方法、装置、设备及计算机可读存储介质-202110233724.0
发明人：尤祖寰 -专利权人：中国科学技术大学;科大讯飞股份有限公司
申请日： 2021-03-03 - 公布日： 2023-09-26 - 主分类号： G10L15/18
摘要：本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质，其中，语音识别方法包括：根据待识别的目标语音和目标关键词，确定当前解码时刻的第一上下文向量，其中，目标语音为针对目标问题的作答语音，目标关键词为目标问题中包含的关键词，和/或目标问题对应的标准答案中包含的关键词；根据目标问题和当前解码时刻的第一上下文向量，确定当前解码时刻的第二上下文向量；根据当前解码时刻的第二上下文向量，确定当前解码时刻的识别结果。本申请提供的语音识别方法在确定当前解码时刻解码所需的上下文向量时，由于结合了目标关键词和与目标关键词有关的目标问题，因此，基于确定出的上下文向量能够较为准确地识别出目标语音中的关键词。

语音交互增强方法、装置、设备及存储介质-202310767326.6
发明人：李向阳 -专利权人：成都市卡蛙科技有限公司
申请日： 2023-06-27 - 公布日： 2023-09-22 - 主分类号： G10L15/18
摘要：本申请提供一种语音交互增强方法、装置、设备及存储介质，通过获取多路语音信号，对多路语音信号进行音源定位，得到每路语音信号的音区位置信息，以提取语音信号的空间维度，促进语义消歧；对语音信号进行语义解析，得到语音信号的当前语义信息，以能够针对多路语音信号进行识别和解析，满足更多语音交互场景的智能语音识别需求；最后基于音区位置信息，对当前语义信息进行多轮语义融合，得到目标语义信息，目标语义信息用于执行对应的交互动作，以能够利用多轮语音对话进行语义分析，提高语音交互的便捷性和智能化，从而提高用户语音交互体验。

对话管理方法、用户终端和计算机可读记录介质-202211616064.5
发明人：文栽旻;朴珉宰;金星王 -专利权人：现代自动车株式会社;起亚株式会社
申请日： 2022-12-15 - 公布日： 2023-09-22 - 主分类号： G10L15/18
摘要：本发明涉及对话管理方法、用户终端和计算机可读记录介质。所述对话管理方法包括：获得针对用户发言的语音识别结果或自然语言理解结果的至少一个；基于针对用户发言的语音识别结果或自然语言理解结果的至少一个，确定在用户发言中是否包括固定的发言模式；当在用户发言中包括固定的发言模式时，基于当前对话语境或包括在用户发言中的固定的发言模式的类型的至少一个，生成用于引导用户发言的完成的推荐的发言信息。

语音意图识别方法、装置、电子设备及存储介质-202310945156.6
发明人：唐娟;刘楚雄;叶松林 -专利权人：成都赛力斯科技有限公司
申请日： 2023-07-31 - 公布日： 2023-09-22 - 主分类号： G10L15/18
摘要：本申请涉及智能语义技术领域，提供了一种语音意图识别方法、装置、电子设备及存储介质。该方法包括：获取语音信息，将语音信息转换为标准文本；基于标准文本，在意图模板库中获取候选匹配文本集合；分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度；基于对应最大意图相似度的候选匹配文本确定语音信息的意图。该方法无需构建大量的意图模板，能够降低识别成本；同时利用多种相似度确定与标准文本最匹配的候选匹配文本，能够提高识别降低，降低误识别和漏识别的概率。

语音交流的情感分析智能会话系统、方法、设备及介质-202310914386.6
发明人：赵祥红;周文华;秦圣杰;练斌;马龙华;周冬升;黎兴兴;王琦翔;吴伟;李浩;郭苗峰;赵奇志;朱成凯;汪一凡 -专利权人：浙大宁波理工学院
申请日： 2023-07-24 - 公布日： 2023-09-19 - 主分类号： G10L15/18
摘要：本发明公开了语音交流的情感分析智能会话系统、方法、设备及介质。涉及人工智能及大数据技术领域，包括：输入模块，用于获取用户输入的语音信息；处理模块，用于对语音信息进行处理，得到文字信息；推理模块，基于主模型和心理疏导模型对文字信息进行推理，输出回应的文本语言；转换模块，用于构建vits语音合成模型，将文本语言转化为特定音色的语音信息；输出模块，用于将特定音色的语音信息输出，同时按照时间绘制情绪分析以及抑郁概率统计结果。本发明为抑郁症、焦虑症等心理疾病患者提供一种智能会话系统，通过智能会话和互动来陪伴患者并提供心理支持，能够理解患者的情绪状态和需求，并以理解和同理心的方式回应他们的感受。

流式语音识别方法、装置及电子设备-202310627778.4
发明人：李强;王志铭 -专利权人：支付宝（杭州）信息技术有限公司
申请日： 2023-05-30 - 公布日： 2023-09-12 - 主分类号： G10L15/18
摘要：本说明书实施例公开了一种端到端流式语音识别方法，包括：获取待识别语音流；将所述待识别语音流输入预先训练的扩散模型，通过所述扩散模型的逆扩散过程预测出所述待识别语音流的至少一帧未来语音帧；将获取的至少一帧所述未来语音帧与所述待识别语音流进行拼接，得到拼接语音流；对所述拼接语音流进行语音识别，获得语音识别结果。相应地，本发明公开了端到端流式语音识别装置。

一种语音意图匹配方法、装置、智能座舱和电子设备-202310726901.8
发明人：袁志伟 -专利权人：中国第一汽车股份有限公司;一汽（北京）软件科技有限公司
申请日： 2023-06-19 - 公布日： 2023-09-01 - 主分类号： G10L15/18
摘要：本发明公开了一种语音意图匹配方法、装置、智能座舱和电子设备，方法步骤包括：采集语音信号并进行语义识别，确定语音信号所要执行的语音指令，检测控件载体上是否存在多个能够被所述语音指令触发的控件，如果存在能够被所述语音指令触发的多个控件，则根据预设的条件匹配优先级最高的控件，执行优先级最高的控件的操作指令。本发明实现了根据控件优先级不同匹配对应不同的语音，执行优先级最高的控件的操作指令，避免了控件之间的混淆，增加了车机或智能座舱的智能化程度，提高了用户体验度。

语义理解模板的确定方法、装置、存储介质及电子装置-202310641051.1
发明人：马志芳 -专利权人：青岛海尔科技有限公司;海尔优家智能科技（北京）有限公司;海尔智家股份有限公司
申请日： 2023-05-31 - 公布日： 2023-09-01 - 主分类号： G10L15/18
摘要：本申请公开了一种语义理解模板的确定方法、装置、存储介质及电子装置，涉及智慧家庭技术领域，该语义理解模板的确定方法包括：获取目标对象与智能设备进行语音交互时所产生的多组语音交互数据；获取所述多组语音交互数据的每一组语音交互数据对应的语义理解模板，其中，所述每一组语音交互数据中的任意两个语音交互数据的数据相似度均大于预设阈值；根据模板参数从多个所述语义理解模板中确定目标语义理解模板，其中，所述模板参数包括以下至少之一：语义理解模板的适用度，语义理解模板的泛化度，语义理解模板的长度，采用上述技术方案，解决了语义理解模板的准确率较低的技术问题。

全双工语音对话中的多阶段响应-201880085943.5
发明人：周力 -专利权人：微软技术许可有限责任公司
申请日： 2018-10-25 - 公布日： 2023-09-01 - 主分类号： G10L15/18
摘要：本公开提供了用于通过电子对话代理在语音对话中进行响应的方法和装置。可以在音频上行流中接收语音输入。响应于所述语音输入，可以生成主要响应和至少一个补充响应。可以基于所述主要响应来生成主要语音输出。可以基于所述至少一个补充响应来生成至少一个补充语音输出。可以在音频下行流中提供所述主要语音输出和所述至少一个补充语音输出，其中，所述至少一个补充语音输出是在所述音频下行流中与所述主要语音输出相邻的时间段期间提供的。

一种基于Swin-Transformer的语音语义信号传输方法-202310606682.X
发明人：周子良;郑仕链;赵知劲;陈杰 -专利权人：杭州电子科技大学
申请日： 2023-05-26 - 公布日： 2023-08-29 - 主分类号： G10L15/18
摘要：本发明公开了一种基于Swin‑Trasformer的语音语义通信传输方法，本发明包括以下步骤：1.对语音信号进行数据预处理；2.将预处理后的语音信号通过语义编码器，自动提取语音信号中的语义信号；3.将语义信号通过物理信道以模拟现实生活中的噪声干扰；4.将带有噪声干扰的语义信号通过语义解码器；将带有噪声的信号分别经过卷积层和Transformer‑basedDecoder层，重新构建其浅层特征和深层特征，最后经过KeepfeatLayer实现多重维度语义信息的融合；5.对经过语义解码器的信号进行信号重建，以恢复出原始的语音信号。本发明以时域信号直接作为系统输入，减少了计算的成本，这对于注重时时传输的智能通信系统来说是极为重要的。

多命令单一话语输入方法-201910910058.2
发明人： T·R·格鲁伯;H·J·萨德勒;J·R·贝勒加达;B·H·奈根;A·萨巴特利 -专利权人：苹果公司
申请日： 2015-05-28 - 公布日： 2023-08-29 - 主分类号： G10L15/18
摘要：本公开涉及多命令单一话语输入方法。本发明公开了一种用于处理虚拟助理的多部分语音命令的系统和过程。可从用户接收语音输入，该语音输入包括单一话语内的多个可执行命令。可使用语音转录过程从语音输入生成文本串。可基于域关键字、祈使动词、预先确定的子串长度等来将该文本串解析成多个候选子串。针对每个候选子串，可确定用于指示候选子串是否对应于可执行命令的概率。可基于语义连贯、与用户请求模板的相似性、用于确定可管理性的查询服务等来确定此类概率。如果该概率超过阈值，则可确定每个子串的用户意图、可执行与用户意图相关联的过程，并且可将确认提供至用户。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语音搜索的内容推荐方法及系统有效

专利文献下载