“G10L15/02”专利分类搜索_专利查询_文献下载_出售_求购_买卖_交易

钻瓜专利网为您找到相关结果1983个，建议您升级VIP下载更多相关专利

[发明专利]音频识别方法、装置和存储介质及电子设备-CN202310028802.2在审
发明人：林炳怀;王丽园 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-01-09 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本申请公开了一种音频识别方法、装置和存储介质及电子设备。其中，该方法包括：获取目标音频，其中，目标音频对应的语言种类为预设语言种类集合中的至少一种，预设语言种类集合包含至少两种语言种类；按照目标音频对应的语言种类对目标音频进行第一音频识别，得到目标音频对应的文本特征；以及，对目标音频进行第二音频识别，得到目标音频对应的非文本特征；对文本特征和非文本特征进行整合处理，并基于整合得到的目标音频特征确定目标音频所属的情感类别，可应用在人工智能场景，涉及语音识别、自动驾驶等技术。本申请解决了音频识别准确性较低的技术问题。
音频识别方法装置存储介质电子设备

[发明专利]对话回合的检测方法、装置、设备、介质、程序产品-CN202211526525.X在审
发明人：周青宇;王晓雪;卢星宇;赖少鹏 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-11-30 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本申请提供了一种对话回合的检测方法、装置、设备、介质、程序产品；涉及基于人工智能的语音技术领域；方法包括：获取待检测语音数据对应的声学特征信息、文本信息和时间特征信息；对声学特征信息进行卷积处理，得到待检测语音数据对应的声学特征向量；对文本信息进行语义编码处理，得到文本信息对应的语义特征向量；对时间特征信息进行时间编码处理，得到待检测语音数据对应的时间特征向量；将声学特征向量、语义特征向量和时间特征向量进行融合处理，得到融合特征向量；基于融合特征向量进行分类处理，得到待检测语音数据是否对应对话回合的结束位置的检测结果。通过本申请，能够准确判断对话回合结束位置，显著改善用户体验。
对话回合检测方法装置设备介质程序产品

[发明专利]多对多的实时语音变音方法、设备及存储介质-CN202311220568.X在审
发明人：徐儒芳;黄德安;陈子文 -专利权人：深圳麦风科技有限公司
申请日： 2023-09-21 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本发明涉及音频处理领域，公开了一种多对多的实时语音变音方法、设备及存储介质。该方法包括：检测到变声处理请求时，根据变声处理请求，获取待变声的音频数据流，并根据变声处理请求，确定待变目标的预设音色音频；提取音频数据流的768维网络特征，提取预设音色音频的梅尔特征信息，并提取预设音色音频的音色编码特征；根据预先训练的多头注意力模型，对768维网络特征、梅尔特征信息以及音色编码特征执行特征交叉操作，得到目标音频特征；将目标音频特征翻译成时域音频波形能量数据；根据时域音频波形能量数据，执行语音增强操作，以响应变声处理请求。本发明使得计算资源较为有限的设备使用实时变声技术的实时性变高。
实时语音变音方法设备存储介质

[发明专利]自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言-CN202311023420.7在审
发明人：赵璞升;迭戈·米伦多·卡萨多;伊格纳西奥·洛佩斯·莫雷诺 -专利权人：谷歌有限责任公司
申请日： 2018-04-16 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本公开涉及自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言。实施方式涉及确定用于经由用于与自动化助理交互的自动化助理接口接收的口头话语的语音辨识的语言。实施方式可使得能够与所述自动化助理进行多语言交互，而无需用户显式地指定要用于每个交互的语言。对针对特定语言的语音辨识模型的选择可基于在用户与自动化助理之间的对话会话期间展示的一个或多个交互特性。这样的交互特性可包括预期用户输入类型、预期用户输入持续时间、用于针对用户响应进行监视的持续时间和/或提供的用户响应的实际持续时间。
自动确定用于经由自动化助理接口接收口头话语语音辨识语言

[发明专利]处理音频数据的方法及装置、音频数据处理设备和介质-CN202311218395.8在审
发明人：李林峰;黄海荣;曹阳 -专利权人：湖北星纪魅族集团有限公司
申请日： 2023-09-21 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本公开的至少一实施例提供了一种处理音频数据的方法和装置、音频数据处理设备和计算机可读存储介质。本公开的至少一实施例所提供的方法针对由语音交互设备获取的音频数据，分别从中提取语音特征和语音文本，继而基于语音特征和语音文本确定对音频数据的拒识概率，并且基于语音特征对该音频数据所属的场景进行分类，以联合所确定的拒识概率和场景分类结果共同确定语音交互设备对该音频数据的最终拒识结果。该方法能够利用包括声音和文本的多模态信息进行拒识概率确定，并且利用从音频数据中提取的场景信息来判断语音交互设备的当前使用场景是否属于交互场景，从而基于两类结果的融合实现更准确的语音交互拒识判断。
处理音频数据方法装置数据处理设备介质

[发明专利]一种音频处理方法及装置-CN202211674936.3在审
发明人：杨展恒;孙思宁 -专利权人：腾讯科技（深圳）有限公司
申请日： 2022-12-26 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本申请提供了一种音频处理方法以及相关装置。本申请实施例可应用于人工智能领域。其方法包括：首先，获取音频信号，音频信号包括N个音频帧；其次，将N个音频帧输入至流式声学网络，得到N个音素特征及N个流式音频特征，N个音素特征用于表征音频信号的音素信息；接着，获取实体集合，实体集合包括预先构建的K个实体，K个实体对应于K个音素信息；然后，根据N个音素特征从实体集合中提取出L个实体，L个实体对应于N个音素特征；最后，将音频信号、N个流式音频特征及L个实体输入至非流式声学网络，得到文本识别结果。本申请实施例提供的音频处理方法，通过建立流式声学网络及非流式声学网络提高文本识别的准确性。
一种音频处理方法装置

[发明专利]一种基于神经网络的语音识别方法、终端设备及介质-CN201811182186.1有效
发明人：王义文;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-10-11 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本发明适用于人工智能技术领域，提供了一种基于神经网络的语音识别方法、终端设备及介质，包括：获取待识别的语音序列，将所述语音序列分为至少两帧语音片段；对所述语音片段进行声学特征提取，得到所述语音片段的特征向量；在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量；所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率；在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列，从而节省了语音识别的时间成本和人工成本。
一种基于神经网络语音识别方法终端设备介质

[发明专利]一种信息分类方法及装置、信息分类模型训练方法及装置-CN202110461596.5有效
发明人：朱秋实;吴明辉;方昕;刘俊华 -专利权人：科大讯飞股份有限公司
申请日： 2021-04-27 - 公布日： 2023-10-27 - 主分类号： G10L15/02 文献下载
摘要：本发明提供了一种信息分类方法和装置、信息分类模型的训练方法和装置。首先对第一模型进行训练。在训练过程中，对第一模型的第一参数进行迭代的第一调整和迭代的第二调整。其中，第一调整的每次迭代包括该迭代的第二调整，第二调整的每次迭代基于第一模型对第一样本集的处理，第一调整的每次迭代基于经迭代的第二调整的第一模型对第二样本集的处理。其中，第一样本集包含一个或多个第一样本，第二样本集包含一个或多个第二样本，各第二样本均具有对应的第一原始标签，该第一原始标签用于表征第二样本的类别。然后，调用已训练的第一模型处理待分类样本得到其第一特征，调用第二模型处理第一特征，以得到待分类样本的第一标签。
一种信息分类方法装置模型训练

[发明专利]齿音识别、消除方法、系统、介质及设备-CN202210375304.0在审
发明人：陈修凯;李建华;朱马 -专利权人：上海艾为电子技术股份有限公司
申请日： 2022-04-11 - 公布日： 2023-10-24 - 主分类号： G10L15/02 文献下载
摘要：一种齿音识别、消除方法、系统、介质及设备，识别方法包括通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。本申请的齿音识别方法通过深度学习方式获取音频信号中的齿音判断值，齿音判断值包括第一齿音判断值和第二齿音判断值，并使用第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号，提高了齿音信号识别的准确度。
齿音识别消除方法系统介质设备

[发明专利]语音检测方法、装置、介质及电子设备-CN202110968230.7有效
发明人：王志强;阮良;陈功;陈丽 -专利权人：杭州网易智企科技有限公司
申请日： 2021-08-23 - 公布日： 2023-10-24 - 主分类号： G10L15/02 文献下载
摘要：本公开的实施方式提供了一种语音检测方法、装置、介质及电子设备，涉及语音识别技术领域。该方法包括：获取待检测信号，确定待检测信号对应的全频谱值；根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；对待检测信号进行语音活动检测，得到第二语音活动性检测结果；根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。本公开可以检测出待检测信号中是否包含语音，可以有效提高语音活动性检测过程中语音命中率和非语音命中率。
语音检测方法装置介质电子设备

[发明专利]一种大屏会议语音唤醒的数据查询方法-CN202310867641.6在审
发明人：班荣军 -专利权人：安徽声云智能科技有限公司
申请日： 2023-07-15 - 公布日： 2023-10-20 - 主分类号： G10L15/02 文献下载
摘要：本发明公开了语音处理技术领域的一种大屏会议语音唤醒的数据查询方法，包括：语音信号的声学特征接收用户输入的数据语音信息，提取数据音频信息；通过预先训练得到的数据声学模型，对数据声学特征进行处理，得到数据语音信号的读音序列；对数据语音指令进行语音识别，得到数据语音识别结果，判断数据语音识别结果是否有效，如有效则执行数据语音识别结果；根据接收到的数据语音指令，该大屏会议语音唤醒的数据查询方法，结构设计合理，能够实现语音搜索查找数据，减少时间和精力在查找数据的工作上，提高工作效率，无需用户手动查询与其具有直接连到关系的数据区，实现多区域联动查找。
一种会议语音唤醒数据查询方法

[发明专利]一种语音唤醒方法、系统及存储介质-CN202310962207.6在审
发明人：张志辉 -专利权人：重庆长安汽车股份有限公司
申请日： 2023-07-31 - 公布日： 2023-10-20 - 主分类号： G10L15/02 文献下载
摘要：本发明公开一种语音唤醒方法、系统及存储介质，方法包括：1）获取一次唤醒词，比较一次唤醒词置信度与设定的一次唤醒阈值，大于时，唤醒；小于时，列为疑似唤醒样本；2）计算疑似唤醒样本对应的二次唤醒词置信度，比较二次唤醒词置信度与实时状态下的动态唤醒阈值，大于时，唤醒；小于，不唤醒。本发明通过引入唤醒动态阈值计算及疑似唤醒判断，根据车内环境设置唤醒动态阈值，在置信度与阈值比较的过程中，将部分置信度小于阈值但是又足够接近阈值样本进行二次判断处理，提高唤醒精度，且布置于车端，提高唤醒效率。
一种语音唤醒方法系统存储介质

[发明专利]一种增强噪声鲁棒性的语音识别方法和系统-CN202311075628.3有效
发明人：柯登峰;王运峰;陈立德;徐艳艳 -专利权人：澳克多普有限公司;北京林业大学
申请日： 2023-08-25 - 公布日： 2023-10-20 - 主分类号： G10L15/02 文献下载
摘要：本发明涉及语音信号处理技术领域，具体公开了一种增强噪声鲁棒性的语音识别方法和系统，包括获取噪声数据和具有文本标注的干净语音数据，基于干净语音数据和噪声数据生成加噪语音数据；对干净语音数据和加噪语音数据进行预处理提取干净语音数据和加噪语音数据的梅尔频谱；构建自动语音识别模型，将干净语音数据和加噪语音数据的梅尔频谱输入自动语音识别模型中，获得干净语音数据的识别结果和加噪语音数据的识别结果；基于文本、干净语音数据和加噪语音数据的识别结果训练自动语音识别模型，以获得训练好的自动语音识别模型；基于训练好的自动语音识别模型对含噪语音数据进行识别；该方法提升了自动语音识别模型的噪声鲁棒性。
一种增强噪声鲁棒性语音识别方法系统

[发明专利]车辆特征的响应激活-CN201811177179.2有效
发明人： C·R·汉森;D·H·史密斯;X·F·赵;G·塔瓦尔 -专利权人：通用汽车环球科技运作有限责任公司
申请日： 2018-10-09 - 公布日： 2023-10-20 - 主分类号： G10L15/02 文献下载
摘要：一个总体方面包括一种用于车辆的车辆特征的响应激活的系统，该系统包括：音频系统，其被配置为声明信息和车辆特征；存储器，其被配置为包括一个或多个可执行指令；控制器，其被配置为执行该可执行指令，并且其中该可执行指令使得该控制器能够：从位于车辆中的车辆乘员接收一个或多个语音输入，该语音输入关于车辆特征；响应于接收到的语音输入而从车辆特征信息数据库中检索车辆特征信息；提供车辆特征信息的音频描述信息；确定至少一个接收到的语音输入是否包括特征激活请求；响应于至少一个接收到的语音输入包括特征激活请求的肯定确定而向车辆特征提供车辆特征激活信息。
车辆特征响应激活

[发明专利]移动终端语音分析系统-CN202110133543.0有效
发明人：郭昆;陈文举;吉鹏云;陈羽中;张鹏;李钒效 -专利权人：福州大学
申请日： 2021-02-01 - 公布日： 2023-10-20 - 主分类号： G10L15/02 文献下载
摘要：本发明涉及一种移动终端语音分析系统。包括：数据预处理模块，对输入的语音信号进行预处理，转换成RGB图像；语音识别模块，对RGB图像大小进行调整，输入神经网络进行训练，得到神经网络模型；待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型，输出预测结果；语音重构模块，实现从加速度信号重构出语音信号的功能；对于输入的加速度信号频谱图，重构模块内部基于自动编码器设计的神经网络会先对其进行处理，经过训练的神经网络模型，输出加速度信号对应的语音信号的频谱图，再使用Griffin‑Lim算法从语音信号频谱图还原出语音信号，达到从加速度信号重构出语音信号的目标。本发明能够实现完整的从加速度信号重构出语音信号的功能。
移动终端语音分析系统

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 1983 条