[发明专利]语音数据处理方法、装置、设备及存储介质在审

申请号：	201910018423.9	申请日：	2019-01-04
公开（公告）号：	CN109616097A	公开（公告）日：	2019-04-12
发明（设计）人：	刘博卿;贾雪丽;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/08;H04M3/51
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;熊永强
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例公开了一种语音数据处理方法、装置、设备及储存介质，其中方法包括：获取待处理的语音数据，所述待处理的语音数据由多个对象的语音数据段组成；按照预设的处理规则对所述待处理的语音数据进行处理，得到目标语音数据；对所述目标语音数据进行划分，得到多个语音数据段；将所述多个语音数据段输入到语音网络模型中进行预测，得到每个语音数据段的预测标签；根据所述每个语音数据段的预测标签确定所述目标语音数据的边界点，以根据所述边界点从所述目标语音数据中分割出每个对象的语音数据段；可自动获取语音数据的边界点，可提高获取语音数据的边界点的准确度。
搜索关键词：	语音数据段语音数据目标语音边界点语音数据处理预测标签确定储存介质处理规则存储介质语音网络自动获取准确度预设标签分割
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语音数据处理方法，其特征在于，包括：获取待处理的语音数据，所述待处理的语音数据由多个对象的语音数据段组成；按照预设的处理规则对所述待处理的语音数据进行处理，得到目标语音数据，所述预设的处理规则包括数据过滤规则和/或数据格式处理规则；对所述目标语音数据进行划分，得到多个语音数据段；将所述多个语音数据段输入到语音网络模型中进行预测，得到每个语音数据段的预测标签，所述预测标签包括语音数据段为边界点的概率；根据所述每个语音数据段的预测标签确定所述目标语音数据的边界点，以根据所述边界点从所述目标语音数据中分割出每个对象的语音数据段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910018423.9/，转载请声明来源钻瓜专利网。

上一篇：多语种语音解码图的构建方法、装置、服务器和介质
下一篇：基于频域能量的语音端点检测方法和装置

同类专利

语音信息处理方法和语音信息处理装置-201510225110.2
发明人：戴海生;过晓冰;王哲鹏 -专利权人：联想（北京）有限公司
申请日： 2015-05-05 - 公布日： 2019-10-29 - 主分类号： G10L15/04
摘要：本发明一个实施例提供了一种语音信息处理方法和语音信息处理设备，方法包括：在语音录制状态下，检测是否接收到用于指示开始进行语音信号识别的识别启动信号；当检测接收到识别启动信号时，从接收到识别启动信号对应的时间点开始进行第一次语音识别，并且检测在时间点识别的语音信号是否是截断的语音信号；当检测到在时间点识别的语音信号是截断的语音信号时，在录制的语音信号中向前检测距离截断的语音信号最近的语音起点；当检测到距离截断的语音信号最近的语音起点时，从最近的语音起点开始对录制的语音信号按照录制时间顺序进行第二次语音识别。本发明有效地避免了语音截断，保证了信息的完整性。

一种音频处理方法、装置及终端-201510270567.5
发明人：赵伟峰 -专利权人：广州酷狗计算机科技有限公司
申请日： 2015-05-25 - 公布日： 2019-10-15 - 主分类号： G10L15/04
摘要：本发明实施例提供一种音频处理方法、装置及终端，其中的方法可包括：获取目标音频文件对应的字幕文件，所述字幕文件由至少一个字符单句顺序组成；根据所述至少一个字符单句之间的相似度构建字幕特征序列，所述字幕特征序列包括至少一个字符特征元素；按照预设段落总数对所述字幕特征序列进行优化；根据优化后的所述字幕特征序列中的至少一个字符特征元素的数值确定段落变化时间；按照所述段落变化时间将所述目标音频文件划分为所述预设段落总数的段落。本发明可基于音频文件对应的字幕文件中的字符单句的相似性实现对目标音频文件的段落划分，提升分段处理效率，提升音频处理的智能性。

一种高效副语音检测识别方法及装置-201910594425.2
发明人：赵小蕾;许喜斌;王辰尹 -专利权人：中山大学新华学院
申请日： 2019-07-03 - 公布日： 2019-10-08 - 主分类号： G10L15/04
摘要：本发明公开了一种高效副语音检测与识别方法，包括以下步骤：对语音信息进行检测并提取副语音；对副语音进行识别判断副语音类型。本发明还提出一种高效副语音检测与识别装置，包括：检测单元，对语音信息进行检测并提取副语音；识别单元，对副语音进行识别判断副语音类型。本发明使用基于似然比距离的音频分割算法完成语音段预分割，随后使用预先训练好的模型进行分割点确认，最终判断是否有副语音段，完成副语音自动检测，随后提取检测到的副语音段语谱图，作为PCANET网络输入计算深度学习特征，并使用SVM模型进行识别，与人工统计特征相比取得了更高的识别率。

语音断句方法及系统-201910604972.4
发明人：李超凡;车云飞;黄为 -专利权人：四川长虹电器股份有限公司
申请日： 2019-07-05 - 公布日： 2019-10-08 - 主分类号： G10L15/04
摘要：本发明涉及音频处理技术，解决了现有语音断句方法断句准确度较差的问题。技术方案概括为：语音断句方法及系统，通过麦克风阵列采集多路声音信号并进行分帧处理，对各路信号合成后进行语音激活检测，并根据多路信号进行音源方向判断，然后根据音源方向判断结果和语音激活检测结果共同进行语音断句处理。本发明基于麦克风阵列，使用音源方向对语音激活检测结果做辅助判别，通过判断音源方向是否在预设的方向范围内，决定是否采用语音激活检测的检测结果，避免了其他方向的干扰信号对语音断句造成干扰系，提高了语音断句的准确性。

一种基于短时能量和分形维数的语音端点检测方法-201611178115.5
发明人：魏啸天;鲍鸿 -专利权人：广东工业大学
申请日： 2016-12-19 - 公布日： 2019-09-27 - 主分类号： G10L15/04
摘要：本发明公开了一种基于短时能量和分形维数的语音端点检测方法，包括对源语音信号进行预处理得到每一帧语音信号；利用分形维数的理论计算每一帧语音信号对应的分形维数值，并计算每一帧语音信号的短时能量值，以得到短时能量值与分形维数值的比值；判断每一帧语音信号所对应的比值是否大于或等于第一阈值，如果是，则大于或等于第一阈值的帧为话音帧；在话音帧两侧方向上提取源语音信号包含的起始端点和结束端点。本方法将分形维数的理论应用在端点检测上，将每一个帧的短时能量值与分形维数值的比值与第一阈值比较，从而筛选出话音帧，然后在话音帧的两侧方向上提取起始端点和结束端点。因此本方法可以在信噪比较低的语音信号中有效地提取到端点。

基于键盘输入感知的活动识别方法-201710023821.0
发明人：於志文;肖栋;郭斌;王柱 -专利权人：西北工业大学
申请日： 2017-01-13 - 公布日： 2019-09-24 - 主分类号： G10L15/04
摘要：本发明公开了一种基于键盘输入感知的活动识别方法，用于解决现有活动识别方法实用性差的技术问题。技术方案是首先对键盘输入时所产生的音频信号进行采样，再对采集到的音频进行滤波与利用双门限端点检测算法分割单键信号。基于单键信号的频域特征利用支持向量机算法将用户的输入序列文本从音频信号中恢复出来。然后结合文本序列与音频信号，分别提取音频信号特征与语义相关特征，利用基于特征差异的滑动窗口对文本序列进行分片，最后使用基于C4.5的AdaBoost算法以分片为单位对用户的不同人机行为活动进行识别。本发明使用滑动窗口对文本序列进行分片与基于C4.5的AdaBoost算法相结合进行活动识别，泛化能力强，实用性好。

语音断句的方法、装置和存储介质-201910463478.0
发明人：张睿卿;熊皓;张传强;何中军;李芝;吴华;王海峰 -专利权人：北京百度网讯科技有限公司
申请日： 2019-05-30 - 公布日： 2019-09-20 - 主分类号： G10L15/04
摘要：本申请提供一种语音断句的方法、装置和存储介质，该方法包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。本实施例提供的方法中通过预先获取的断句模型，能够实现实时对待断句语音进行断句，减少了时延。

一种应用于语音识别的信号增益方法和装置-201610191920.5
发明人：李敬源 -专利权人： TCL集团股份有限公司
申请日： 2016-03-30 - 公布日： 2019-09-17 - 主分类号： G10L15/04
摘要：本发明提供一种应用于语音识别的信号增益方法和装置，以在对语音信号放大时防止过载失真，提高语音识别的准确率。所述方法包括：删除经过预处理后的语音信号中的无话段，得到第一语音信号；求取第一语音信号中每帧信号存在语音的概率PRatio；修正第一语音信号的增益，使概率PRatio小于第一判决门限的信号的增益减小并且概率PRatio大于第一判决门限的信号的增益增大，得到增益修正后的第二语音信号；限制第二语音信号的增益，使其小于系统设定的增益极值。本发明提供的技术方案可防止后期语音识别时语音识别引擎工作的中止，提高语音识别的有效性，有效提高后期语音识别的准确率，并防止语音识别过程中过载失真情况的发生。

一种老师与高中生之间单向语音系统-201810156729.6
发明人：薛睿 -专利权人：薛睿
申请日： 2018-02-24 - 公布日： 2019-08-23 - 主分类号： G10L15/04
摘要：本发明公开了一种老师与高中生之间单向语音交互系统，它包括收听终端、耳机、wifi路由器、台式电脑、智能手机、校园服务器、老师终端；收听终端安装wifi模块、RFID读写器、耳机接口、按键指示灯、控制模块，按键指示灯包括考试会议忙键、收听确认键、回放键、运行灯、闪光灯。老师终端经由校园服务器与控制模块之间无线连接。老师终端建立高中生基本信息表为座位就坐，考试会议忙，确认收听，预备讲键，讲话键；点击讲话键后启动语音录音功能，自动切割、生成、下发一分钟语音片段文件；控制模块上传按键状态，驱动灯亮，自动播放语音片段文件。在限制高中生随带电子设备背景下，本发明能让老师随时随地安排事务与讲评题目，提升高中生学习效率与水平。

语音处理方法、装置、计算机设备及存储介质-201910374806.X
发明人：王涛 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-07 - 公布日： 2019-08-20 - 主分类号： G10L15/04
摘要：本申请实施例提供了一种语音处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于语音识别技术领域，本申请实施例实现语音识别时，通过非流的方式，让人一次性录制完所有语音后，获取非流方式的语音，先判断语音中是否包含异常声音信号，异常声音信号包括静音期信号，若语音中包含异常声音信号，通过语音活动检测异常声音信号，然后对语音进行裁剪，删除异常声音信号，得到多个语音片段，将多个语音片段按照各自在语音中的原有顺序进行语音合成以得到新语音，然后再通过语音识别服务器对新语音进行整句识别的方式进行语音识别，以使整句形式的新语音可以有效利用语音识别中的声学模型和语言模型，有效提升语音的识别准确性和效率。

检测自我生成的唤醒声调-201480037022.3
发明人：迈克尔·艾伦·波格;菲利普·瑞安·希尔莫斯 -专利权人：亚马逊技术股份有限公司
申请日： 2014-06-26 - 公布日： 2019-08-09 - 主分类号： G10L15/04
摘要：本发明公开了一种基于语音的音频装置，其可以被配置来检测用户发出的唤醒声调且通过将后续单词或词语解译为命令来作出响应。为了区分所述用户发出的所述唤醒声调与所述装置本身生成的所述唤醒声调，可以分析定向音频信号以检测所述唤醒声调是否接收自多个方向。如果所述唤醒声调接收自许多方向，那么宣布所述唤醒声调是由所述音频装置生成且被忽略。否则，如果所述唤醒声调接收自单一方向或有限数量的方向，那么宣布所述唤醒声调是由所述用户发出且后续单词或词语是由所述音频装置解译和作用。

一种VAD动态参数调整方法和装置-201611234787.3
发明人：陈迪;李喆;朱频频 -专利权人：上海智臻智能网络科技股份有限公司
申请日： 2016-12-28 - 公布日： 2019-08-02 - 主分类号： G10L15/04
摘要：本发明公开了一种VAD动态参数调整方法和装置，所述方法包括：提取训练语料中每句语音信号的情感特征向量；将各句语音信号的情感特征向量作为神经网络的输入特征、将预先确定的各句语音信号的最优VAD参数序列作为神经网络的期望输出，采用设定的神经网络训练算法，对搭建的神经网络进行训练；在语音处理时，利用已训练的所述神经网络以当前语句的前一语句的情感特征向量为输入特征而输出的VAD参数，对当前语句进行语音端点检测。本发明通过找到语音中的情感信息和VAD模型相关参数间存在的规律，得到VAD效果最优参数模型，当需要语音端点检测时，利用最优参数模型对VAD参数进行动态预估，从而达到优化特殊场景下的VAD的效果。

一种实现语音歌唱化的方法和装置-201210591777.0
发明人：孙见青;凌震华;江源;何婷婷;胡国平;胡郁;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2012-12-31 - 公布日： 2019-07-30 - 主分类号： G10L15/04
摘要：本发明实施例公开了一种实现语音歌唱化的方法和装置，所述方法包括：接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失，实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

语音数据情感标注方法、装置、计算机设备及存储介质-201910279565.0
发明人：王义文;张文龙;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-04-09 - 公布日： 2019-07-23 - 主分类号： G10L15/04
摘要：本发明公开了一种语音数据情感标注方法、装置、计算机设备及存储介质，应用于语音数据处理领域，用于解决当前语音数据情感标注的准确率低下的问题。本发明提供的方法包括：获取待情感标注的目标语音；对目标语音进行语音识别，得到目标文本；提取目标文本中的各个关键词，并记录每个关键词对应的语音片段；根据每个关键词对应的语音片段确定出每个关键词对应的特征向量；在得到各个关键词对应的特征向量之后，对各个关键词对应的特征向量进行聚类，直到满足预设的条件，聚类后得到各个向量集；从每个向量集中随机抽取第一数量个特征向量；获取标注人员在各个指定情感维度对每个向量集对应的语音语句在整体上所作的打分分值，作为情感标注值。

一种语音端点检测方法-201910288454.6
发明人：左靖东;况鹏;范振;詹佳丽;黎宁 -专利权人：深圳市壹鸽科技有限公司
申请日： 2019-04-11 - 公布日： 2019-07-23 - 主分类号： G10L15/04
摘要：本发明公开了一种语音端点检测方法，通过多窗谱减算法，将有噪声环境下的语音信号减噪，对语音进行增强，计算增强后语音的频域信号能量，并将该能量作为语音检测时的特征；分别计算每一帧的短时和长时能量均值作为每一帧对应的得分值和判决阈值，根据所述得分值和判决阈值的大小进行语音或非语音判决；最后，根据语义意图自适应调整说话间隙时长，判决出完整一句话的起止点位置。其具有较低的复杂度和计算量，并在复杂环境下具有很好的鲁棒性；不需要对各种环境噪声有先验知识，也能适应非平稳的各类噪声背景。

语音处理方法、装置及智能家居设备-201910329025.9
发明人：张娣;李越峰 -专利权人：四川长虹空调有限公司
申请日： 2019-04-23 - 公布日： 2019-07-16 - 主分类号： G10L15/04
摘要：本发明涉及语音识别技术领域，本发明旨在解决现有语音识别方法的准确度不高的问题，提出一种语音处理方法、装置及智能家居设备，所述方法包括以下步骤：实时获取智能家居设备所在位置的声音数据；根据所述声音数据对用户是否发出语音指令进行检测，当检测到用户发出语音指令后获取噪声数据，所述噪声数据为检测到用户发出语音指令第一预设时间之前的第二预设时间内的声音片段数据；将所述噪声数据与标准语料数据进行叠加得到基准语料数据，通过所述基准语料数据建立声学模型，根据所述声学模型对语音指令进行识别。本发明减小了智能家居设备所在位置的噪声变化对语音识别的影响，提高了语音识别的准确度，适用于智能空调。

语音唤醒方法及电子设备-201910272303.1
发明人：陈岩 -专利权人： OPPO广东移动通信有限公司
申请日： 2019-04-04 - 公布日： 2019-07-05 - 主分类号： G10L15/04
摘要：本申请实施例公开了一种语音唤醒方法及电子设备，其中，电子设备包括音频采集单元、处理器、专用语音识别芯片和屏幕，且专用语音识别芯片的功耗小于处理器的功耗，在电子设备的屏幕处于熄屏锁定状态时，由低功耗的专用语音识别芯片对外部的第一音频信号校验通过后唤醒处理器，再由处理器对第一音频信号进行二次校验，而在电子设备的屏幕处于亮屏锁定状态时，直接由处理器采用不同类型的语音唤醒算法对第一音频信号进行两次校验，由此，不仅能够确保语音唤醒的准确度，还能够降低电子设备实现语音唤醒的功耗。

智能终端及其饮食搜寻方法、及无人驾驶车辆-201711315466.0
发明人：肖海峰;徐平 -专利权人：上海博泰悦臻网络技术服务有限公司
申请日： 2017-12-12 - 公布日： 2019-06-21 - 主分类号： G10L15/04
摘要：本申请涉及智能终端技术领域，提供一种智能终端及其饮食搜寻方法、及无人驾驶车辆，在检测到用户表达饮食搜寻的指令时，智能终端获取用户输入的多轮语音信号，接着根据所述多轮语音信号识别所述用户的直观意图，进而根据所述直观意图获取与所述直观意图相关的导航记录、就餐记录、饮食喜好、饮食习惯、附近餐饮信息、热门推荐信息、优惠促销信息、出行便利信息以及当前时间段中的至少两个以上综合因素，最终能够根据所述综合因素，给出与所述直观意图相匹配的饮食兴趣点POI建议并提供导航信息。本申请能够方便用户进行语音搜寻到适合用户的饮食POI，而且不再需要用户进行手动筛选，同时人机交互过程方便自然，操作简单，较大程度地改善了用户体验。

一种音频处理方法、设备及计算机可读介质-201910236110.0
发明人：张晴晴;刘天宇;杨金富;罗磊;马光谦;汪洋 -专利权人：北京爱数智慧科技有限公司
申请日： 2019-03-27 - 公布日： 2019-06-07 - 主分类号： G10L15/04
摘要：本申请涉及一种音频处理方法、设备及计算机可读介质，所述方法包括：接收待处理的音频文件；对所述音频文件中的音频信号进行完整性检测；若所述音频信号完整，对所述音频信号进行音频质量检测；若所述音频信号的音频质量满足预设条件，则确定所述音频文件为待识别音频文件。本申请实施例可以从音频信号层面确定音频完整性及音频质量，进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件，减少待识别音频文件的数据量，提高效率、降低服务器资源消耗。

一种会议记录生成方法和装置-201910038460.6
发明人：吴欢;田甜 -专利权人：平安科技（深圳）有限公司
申请日： 2019-01-16 - 公布日： 2019-05-17 - 主分类号： G10L15/04
摘要：本发明实施例提供了一种会议记录生成方法和装置。本发明涉及人工智能技术领域，该方法包括：获取会议语音；将会议语音进行分割，得到N个语音片段，N为大于等于2的自然数；将N个语音片段进行聚类，得到M个类别的语音片段，M为大于等于2的自然数，M≤N，M个类别的语音片段分别与M个发言人具有一一对应关系；确定M个类别的语音片段中每个类别的语音片段对应的发言人；根据M个类别的语音片段确定M个发言人中每个发言人的发言内容；根据M个发言人中每个发言人的发言内容生成会议记录。因此，本发明实施例提供的技术方案能够解决现有技术中人工整理会议记录费时费力、效率低的问题。

进行音频断句的自动拆分方法及系统-201610799257.7
发明人：胡飞 -专利权人：北京华科飞扬科技股份公司
申请日： 2016-08-31 - 公布日： 2019-04-23 - 主分类号： G10L15/04
摘要：进行音频断句的自动拆分方法及系统，包括：根据音频获取多个分帧段；根据各分帧段的能量值获取能量阈值，根据所述能量阈值，从所述各分帧段中获取其能量值超过设定能量阈值E_t的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句，之后对每个独立句进行谱熵分析，获取最后的分析句子。从而解决了现有字幕对应过程中，无法进行自动断句的问题。从而，本发明既可以处理已经录制好的音视频，也可以处理正在直播的音视频。对于网络直播流，能够自动的将网络直播语音切割，方便后续环节如听写环节并行处理，加快处理时间。

多媒体文件的翻译方法、装置及翻译播放设备-201811543822.9
发明人：郑勇;孙俊;王文祺;杨汉丹;杜志华;温平;王辉 -专利权人：深圳市沃特沃德股份有限公司
申请日： 2018-12-17 - 公布日： 2019-04-19 - 主分类号： G10L15/04
摘要：本发明揭示了一种多媒体文件的翻译方法、装置及翻译播放设备，其中方法包括：获取多媒体文件中的原始语音文件；翻译所述原始语音文件得到新语音文件，所述新语音文件中的语言为指定语言；配置所述新语音文件的加载属性，以使所述多媒体文件播放时，同步加载所述新语音文件。实现自动将一种多媒体文件中的原始语音文件转换成其他语种的文件。

语音数据处理方法、装置、设备及存储介质-201910018423.9
发明人：刘博卿;贾雪丽;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-01-04 - 公布日： 2019-04-12 - 主分类号： G10L15/04
摘要：本发明实施例公开了一种语音数据处理方法、装置、设备及储存介质，其中方法包括：获取待处理的语音数据，所述待处理的语音数据由多个对象的语音数据段组成；按照预设的处理规则对所述待处理的语音数据进行处理，得到目标语音数据；对所述目标语音数据进行划分，得到多个语音数据段；将所述多个语音数据段输入到语音网络模型中进行预测，得到每个语音数据段的预测标签；根据所述每个语音数据段的预测标签确定所述目标语音数据的边界点，以根据所述边界点从所述目标语音数据中分割出每个对象的语音数据段；可自动获取语音数据的边界点，可提高获取语音数据的边界点的准确度。

根据频域能量对语音信号进行处理的方法和装置-201410098869.4
发明人：许丽净 -专利权人：华为技术有限公司
申请日： 2014-03-17 - 公布日： 2019-04-05 - 主分类号： G10L15/04
摘要：本发明实施例提供一种根据频域能量对语音信号进行处理的方法和装置。本发明的根据频域能量对语音信号进行处理的方法和装置包括：接收包括相邻的第一语音帧和第二语音帧的原始语音信号；分别对所述第一语音帧和所述第二语音帧进行傅里叶变换得到第一频域信号和第二频域信号，并得到所述第一语音帧和所述第二语音帧的频域能量分布；然后得到所述第一语音帧和所述第二语音帧的频域能量相关性系数；根据所述频域能量相关性系数对所述原始语音信号进行分段。本发明实施例可以解决在进行语音信号精细分段时，由于语音信号音素本身的特征或是较强噪声的影响，导致语音信号分段结果准确性不高的问题。

记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质-201480017147.X
发明人：西村知也 -专利权人：日本电气方案创新株式会社
申请日： 2014-02-20 - 公布日： 2019-04-02 - 主分类号： G10L15/04
摘要：使用记录者终端(200)和信息递送设备(100)。信息递送设备(100)包括：呼吸检测单元(104)，其从表达的语音的静音部分中指定呼吸部分；数据处理单元(105)，其确定在记录者的每个分配时间段内基于分配时间段的结束点的范围中是否存在呼吸部分，如果存在呼吸部分，则从分配时间段的开始点生成表达的语音数据直到呼吸部分，并且如果不存在呼吸部分，则从开始点生成表达的语音数据直到分配时间段的结束点；以及数据发射单元(106)，其发射语音数据到记录者终端(200)。记录者终端(200)接收语音数据并且将输入文本数据发射到记笔记用户的用户终端(300)。

一种显示控制方法及终端-201811393607.5
发明人：陈文智 -专利权人：维沃移动通信有限公司
申请日： 2018-11-21 - 公布日： 2019-03-29 - 主分类号： G10L15/04
摘要：本发明提供了一种显示控制方法及终端，包括：获取语音信息；获取语音信息中相邻单词之间的发音时间间隔，在发音时间间隔超出预设取值范围的情况下，将目标内容调整为目标显示格式，本发明可以将获取到的语音信息中相邻的单词之间的发音时间间隔的快慢，对应调整相应目标内容的显示格式，使得在特殊场景中，以不同于默认显示格式的显示效果对目标内容进行显示，使得目标内容的显示效果更加匹配当前场景，解决了在用户无法清晰观看终端屏幕的情况下，产生的用户难以看清屏幕上显示的字体偏小的文字信息的问题。

一种基于机器学习的口语发音检错与纠正系统-201811534792.5
发明人：吴怡之;董权;张俊杰 -专利权人：东华大学
申请日： 2018-12-14 - 公布日： 2019-03-29 - 主分类号： G10L15/04
摘要：本发明涉及一种基于机器学习的口语发音检错与纠正系统，包括：口语发音样本采集模块，用于从整句或整段口语发音中采集正确发音音素和不同类型的错误发音音素；发音检错模型建立模块，用于对所采集的发音音素提取声学特征并进行类型标注作为发音检错模型训练样本集，通过机器学习算法训练生成发音检错模型；在线检错纠正模块，采用生成的发音检错模型对学习者朗读的整句或整段口语发音进行评分和音素检错及发音纠正。本发明能够在线评价口语发音成绩、检查发音错误并提出纠正意见。

一种自适应嘈杂环境下语音端点检测的方法和装置-201510394437.2
发明人：郑战海 -专利权人：广东小天才科技有限公司
申请日： 2015-07-03 - 公布日： 2019-03-15 - 主分类号： G10L15/04
摘要：本发明公开了一种自适应嘈杂环境下语音端点检测的方法和装置。该方法，包括：录制多个连续的语音片；语音片中初始的若干语音片采集为样本语音；计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值；根据语音平均能量值和平均能量值的大小关系判断样本语音是否包含目标语音；当样本语音包含目标语音时，样本语音的起点检测为目标语音的起点；当样本语音不包含目标语音时，将第一特定语音片的起点检测为目标语音的起点；将第二特定语音片的起点检测为目标语音的终点。通过以语音片的方式对声音进行录制，对初始的若干时间片进行采样和能量计算，根据能量的计算结果判断语音的起点和终点，自适应环境检测语音的端点。

信息处理设备、信息处理方法以及程序-201780043940.0
发明人：河野真一;泷祐平 -专利权人：索尼公司
申请日： 2017-04-14 - 公布日： 2019-03-15 - 主分类号： G10L15/04
摘要：为了提供能够更适当地确定用于基于收集到的语音的语音识别而指定的字符串组的整合的单元的信息处理设备、信息处理方法以及程序。一种信息处理设备，包括：获取单元，其获取与收集到的语音的声音属性的变化有关的检测结果；以及确定单元，其基于检测结果确定基于语音的语音识别而指定的字符串组的整合的单元。

一种语音数据处理方法及装置-201811386018.4
发明人：徐涛;王兵 -专利权人：北京千丁互联科技有限公司
申请日： 2018-11-20 - 公布日： 2019-01-22 - 主分类号： G10L15/04
摘要：本发明提供一种语音数据处理方法及装置，包括：接收输入的原始语音数据；确定需要获取原始语音数据的多个应用程序；对原始语音数据进行分流处理，得到多个分流语音数据包，其中，多个分流语音数据包的数量与多个应用程序的数量相同，每个分流语音数据包的语音内容都与原始语音数据的语音内容相同；向每个应用程序发送一个分流语音数据包。本发明提供的语音数据处理方法及装置，能够实现多个应用程序获取到麦克风输入的音频数据，进而使得多个应用程序能够同时对输入的音频数据进行处理。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音数据处理方法、装置、设备及存储介质在审

专利文献下载