[发明专利]发送装置、发送方法、接收装置以及接收方法在审

申请号：	202110320813.9	申请日：	2015-09-07
公开（公告）号：	CN113035214A	公开（公告）日：	2021-06-25
发明（设计）人：	塚越郁夫	申请（专利权）人：	索尼公司
主分类号：	G10L19/16	分类号：	G10L19/16;G10L19/24;H04N21/233;H04N21/2343;H04N21/235;H04N21/435;H04N21/439;H04N21/6332;H04N21/643;H04N21/81;H04N21/845;H04N21/854;H04S5/02
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	余刚
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请涉及发送装置、发送方法、接收装置以及接收方法。为了在发送多个类型的音频数据时，降低接收侧上的处理负载。具有元信息的元文件被发送，该元信息用于在接收装置获取包含多个组的编码数据的规定数量的音频流。表示多个组的编码数据的各自属性的属性信息被插入元文件中。例如，表示多个组中的每一组的编码数据包括在哪个音频流中的流对应关系信息被进一步插入至元文件。
搜索关键词：	发送装置方法接收以及
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于索尼公司，未经索尼公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110320813.9/，转载请声明来源钻瓜专利网。

同类专利

一种应用于北斗三号RSMC的低码率语音传输方法-202311218774.7
发明人：张怀峰;张浩 -专利权人：中国海洋大学
申请日： 2023-09-21 - 公布日： 2023-10-27 - 主分类号： G10L19/16
摘要：本发明属于北斗三号区域短报文通信技术领域，公开了一种应用于北斗三号RSMC的低码率语音传输方法，其包括如下步骤：录制语音信号，并对该语音信号进行预处理得到原始语音信号sig_input；对原始语音信号sig_input进行线性预测分析、傅里叶变换、基音周期分析、子带强度分析、非周期判决以及增益计算，分别获得线性预测系数LPC、傅里叶级数幅值FM、最终基音周期P3、子带强度、清浊音标志AF及增益G六种参数；对获得的六种参数进行向量量化处理；待量化完成后，通过组帧的方式，形成压缩语音编码，然后利用北斗三号RSMC服务，将压缩语音编码以短报文的形式进行传输，实现了北斗卫星短报文通信向语音通信的转变。

音频编码方法、装置、存储介质及计算机设备-202310853517.4
发明人：梁俊斌 -专利权人：腾讯科技（深圳）有限公司
申请日： 2023-07-12 - 公布日： 2023-10-27 - 主分类号： G10L19/16
摘要：本申请提供一种音频编码方法，该方法包括：通过目标控制网络对目标音频进行编码信息预测，得到编码信息预测结果，编码信息预测结果用于指示与目标音频相适配的目标编码器和目标编码参数；通过目标编码器按照目标编码参数对目标音频进行编码，得到目标编码码流；将目标编码码流和目标解码器对应的解码器标识进行封装，得到编码数据包；向音频解码端发送编码数据包，以使音频解码端通过目标解码器对目标编码码流进行解码。本申请利用人工智能技术，通过目标控制网络对获取的目标音频进行编码信息预测，得到与目标音频适配的编码器和解码器进行编解码，从而，能够对不同业务需求的目标音频进行针对性的编解码，避免编解码过程中计算资源的过渡消耗。

一种ogg音频修复方法、装置、计算机设备及存储介质-202310926081.7
发明人：龙逸翔 -专利权人：深圳软牛科技有限公司
申请日： 2023-07-26 - 公布日： 2023-10-24 - 主分类号： G10L19/16
摘要：本发明公开了一种ogg音频修复方法、装置、计算机设备及存储介质，该方法包括：获取参考ogg音频，对参考ogg音频进行解析，并根据解析结果构建解码器；根据解码器创建temp.wav文件；获取待修复的目标ogg音频，并通过内存映射的方法提取目标ogg音频的二进制数据，得到指向二进制数据首地址的指针；基于地址偏移，利用指针获取目标ogg音频的所有页结构，并对每一页结构进行解析，得到目标ogg音频的负载；通过解码器对负载进行解码，并将解码数据写入至temp.wav文件，然后将temp.wav文件转换为ogg格式，得到修复后的目标ogg音频。本发明通过可以正常播放的ogg音频构建解码器，然后对损坏的ogg音频进行负载获取，并通过解码器对负载进行解码，从而实现对于损坏的ogg音频的修复效果。

用于编码和解码音频数据的装置以及方法-201910695103.7
发明人：丹尼尔·费希尔;贝恩德·捷尔汉;马克斯·诺伊恩多夫;尼古拉斯·里特尔博谢;英戈·霍夫曼;哈拉尔德·福斯;斯蒂芬·多拉;尼古拉斯·菲尔伯 -专利权人：弗朗霍夫应用科学研究促进协会
申请日： 2014-10-14 - 公布日： 2023-10-24 - 主分类号： G10L19/16
摘要：音频解码器对经编码的音频数据的比特流进行解码。音频解码器包含判断器，该判断器用于判断经编码的音频数据的帧是否为特殊帧，该特殊帧包含与该特殊帧相关联的经编码的音频样本值及额外信息，其中额外信息包含在该特殊帧之前的多个帧的经编码的音频样本值，其中在先帧的经编码的音频样本值是使用与该特殊帧相同的编解码器配置而被编码的，其中若该特殊帧为解码器启动后的第一帧，则多个在先帧足以将解码器初始化为能够解码与该特殊帧相关联的音频样本值。解码器包含初始化器，该初始化器用于将解码器初始化，其中将解码器初始化包含：在对与该特殊帧相关联的经编码的音频样本值进行解码之前，对额外信息中包括的经编码的音频样本值进行解码。

一种音频处理方法及电子设备-202210793866.7
发明人：肖瑶;林晨 -专利权人：荣耀终端有限公司
申请日： 2022-07-07 - 公布日： 2023-10-20 - 主分类号： G10L19/16
摘要：本申请提供一种音频处理方法及电子设备，所述方法应用于电子设备，电子设备支持播放第一媒体流，所述方法包括：在播放所述第一媒体流的过程中，接收录制指令，所述录制指令用于指示所述电子设备录制与第一时刻对应的音频数据，所述第一时刻为接收到所述录制指令时所述第一媒体流的播放时刻；基于所述录制指令对第一音频数据进行编码，得到高级音频编码aac格式的第二音频数据，以响应所述录制指令，所述第一音频数据为已缓存到所述电子设备中的与所述第一时刻对应的未经编码的脉冲调制录音PCM格式的音频数据。改善支持播放媒体流和录制媒体流的电子设备在播放媒体流过程中的CPU占用率。

可拆解和再编辑音频信号的处理方法及装置-202010209390.9
发明人：潘兴德;黄旭;谭敏强 -专利权人：全景声科技南京有限公司
申请日： 2020-03-23 - 公布日： 2023-10-17 - 主分类号： G10L19/16
摘要：本发明公开了一种可拆解和再编辑音频信号的处理方法及装置，涉及数字信号处理和音频制作技术领域，解决了在保证压缩音频能够完整、正确解码的情况下，不能用一个物理设备完成从原始信号输入到压缩声音信号输出的全部生产流程，从而需要额外的物理设备及传输过程的技术问题，其技术方案要点是音频输入模块输入音频信号，辅助数据添加模块为任意音轨添加辅助数据；音频编辑模块对任意音轨进行添加、删除或替换生成新的音轨集合，音频编码模块则对音轨、辅助数据进行编码得到压缩声音信号。能够用一个物理设备完成从原始信号输入到压缩声音信号输出的全部生产流程，并对任意音轨进行添加、删除、替换等操作。

音频编码方法和解码方法、音频编码装置和解码装置-202110080645.0
发明人：张勇 -专利权人：维沃移动通信有限公司
申请日： 2021-01-21 - 公布日： 2023-10-13 - 主分类号： G10L19/16
摘要：本发明公开了一种音频编码方法和解码方法、音频编码装置和解码装置，所述音频编码方法包括：根据待编码音频信号的音频参数确定待编码序列和第一码流；确定待编码序列中每一元素对应的码数；根据码数和预设的编码阶数对应的预设编码表，对待编码序列进行编码得到第二码流；将第一码流、第二码流和第三码流进行排序打包，得到音频编码码流，其中，第三码流为基于待编码序列中每一元素与第一预设值的大小关系得到的编码码流。本发明提供的音频编码方法，不涉及对音频参数的概率分布进行计算，无需基于音频参数的概率分布对音频信号进行编码，以此减少了大量的计算步骤，进而提高了编码效率。

通信接收方法及其装置-202210279128.0
发明人：董辰;陈梦颖;许晓东;韩书君;王碧舳 -专利权人：北京邮电大学
申请日： 2022-03-21 - 公布日： 2023-10-10 - 主分类号： G10L19/16
摘要：本公开公开了一种通信接收方法及其装置，涉及通信技术领域。具体实现方案为：接收由信道传输的比特流；对所述比特流进行解析，以得到语义信息和语义解码器参数；根据所述语义解码器参数调用接收端的语义解码器；将所述语义信息输入到所述语义解码器中进行数据还原，以得到源信息。所述源信息的数据类型与所述语义解码器相对应。本公开减少了信息量的传输、提高了通信速率。

音频编码器和解码器-201910200887.1
发明人： H·普恩哈根;K·克约尔林;A·格罗舍尔;J·波普;K·J·罗德恩 -专利权人：杜比国际公司
申请日： 2014-04-04 - 公布日： 2023-09-26 - 主分类号： G10L19/16
摘要：本公开涉及音频编码器和解码器。音频处理系统(100)接受具有多个预定义音频帧率中的一个的音频比特流。该系统包括前端组件(110)，该前端组件(110)接收与预定义音频帧率中的任一个中的一个音频帧对应的可变数量的量化谱分量，并且根据预定的频率相关量化水平执行逆量化。该前端组件可以不知道音频帧率。该音频处理系统还包括频域处理级(120)和采样率转换器(130)，其提供在与音频帧率无关的目标采样频率下采样的重构音频信号。通过其帧率适应性，该系统可被配置为与接受多个视频帧率的视频处理系统并行地、帧同步地操作。

一种音频传输方法、装置及音频传输设备-202111045440.5
发明人：彭伟中 -专利权人：广州飞傲电子科技有限公司
申请日： 2021-09-07 - 公布日： 2023-09-22 - 主分类号： G10L19/16
摘要：本申请提供一种音频传输方法、装置及音频传输设备。所述音频传输方法包括：获取待传输的音频的数据参数与USB声卡的配置参数；若数据参数与配置参数适配且音频的编码方式为直接数据信号流编码，将音频传输至第一音频播放设备；若数据参数与配置参数不适配或音频的编码方式不为直接数据信号流编码，将音频传输至第二音频播放设备。本申请先获取待传输的音频的数据参数和USB声卡的配置参数，然后根据待传输的音频的数据参数和USB声卡的配置参数是否相同来选择对应的传输方法。本申请的音频传输方法不需要限定音频的数据参数与USB声卡的配置参数一致，USB声卡可传输的音频的数据格式受到的局限小，灵活性高。

语音合成方法、声码器的训练方法、装置、设备及介质-202111057320.7
发明人：郑艺斌 -专利权人：腾讯科技（深圳）有限公司
申请日： 2021-09-09 - 公布日： 2023-09-19 - 主分类号： G10L19/16
摘要：本申请公开了一种语音合成方法、声码器的训练方法、装置、设备及介质，涉及人工智能领域。方法包括：对目标语音帧的声学特征进行特征编码，得到编码向量；基于所述编码向量以及s组历史预测数据进行时序特征提取，得到时序特征向量，所述历史预测数据包括历史线性预测结果、历史采样点预测结果以及历史预测残差，s为大于等于2的整数；基于所述编码向量以及所述时序特征向量进行采样点预测，得到所述目标语音帧中s个采样点的采样点预测结果；基于所述s个采样点的采样点预测结果进行语音合成。采用本申请实施例提供的方案，能够在保证语音合成稳定性和准确性的情况下，提高语音合成速度。

编码装置和方法、转码方法和转码器、非暂态介质-201810949078.6
发明人：安德烈亚什·施奈德;克里斯托弗·费尔施;梅尔廷·沃尔特斯;杰弗里·里德米勒;斯科特·格雷戈里·诺克罗斯;迈克尔·格兰特 -专利权人：杜比实验室特许公司;杜比国际公司
申请日： 2014-01-15 - 公布日： 2023-09-19 - 主分类号： G10L19/16
摘要：本申请公开了编码装置和方法、转码方法和转码器、非暂态介质。编码方法包括：对当前内容帧编码；生成针对相关联的元数据帧的保护字段，相关联的元数据帧与当前内容帧相关联；对相关联的元数据帧编码，包括保护字段；以及将当前内容帧和相关联的元数据帧包括在输出比特流中，其中：生成保护字段涉及生成一个或更多个加密值；一个或更多个加密值中的至少一个是表示当前内容帧的真实性的帧加密值；以及通过将单向函数应用于包括当前内容帧和相关联的元数据帧的一组帧而生成帧加密值。

一种量化编码方法、装置、设备及存储介质-202380008765.7
发明人：胡晨昊;史润宇;王宾 -专利权人：北京小米移动软件有限公司
申请日： 2023-03-27 - 公布日： 2023-09-08 - 主分类号： G10L19/16
摘要：本公开提出一种量化编码方法、装置、设备及存储介质，所述方法包括：基于声源对象的声锥信息、声源对象相对于听音对象所处的区域中的至少之一确定声源朝向信息的目标量化位数；基于所述目标量化位数对所述声源朝向信息进行量化编码并得到码流信号。本公开会基于听音对象当前对该声源对象的朝向变化的感知敏感度来针对性地选择合适的量化编码方式，灵活性较高。

一种音乐文件转化与播放方法和装置-202310696435.3
发明人：梁晓晨 -专利权人：梁晓晨
申请日： 2023-06-13 - 公布日： 2023-08-29 - 主分类号： G10L19/16
摘要：本发明涉及音乐文件转化与播放技术领域，更具体的公开了一种音乐文件转化与播放方法和装置，包括接收用户选择的音乐文件，发送该音乐文件参数调用后台数据，将数据引入缓冲区，创建一个完整的ID3TAG结构(MP3文件的)，并存入输出缓冲区；读取数据并读入输入缓冲区，对输入缓冲区中的数据进行Mp3格式的压缩编码,并将压缩后的数据存入输出缓冲区，根据用户选择的音乐文件名创建MP3文件，将输出缓冲区中的数据以每次512字节写入该文件；本发明的音乐文件转化与播放装置在选择音乐文件时，对于不符合格式的音乐文件给予用户自行选择是否转化的权利，音乐文件在选择转化后直接进行格式的转化，之后进行播放，确保处于界面上的音乐文件均能播放。

音频数据处理方法、电子设备及存储介质-202310042274.6
发明人：刘钰 -专利权人：荣耀终端有限公司
申请日： 2023-01-28 - 公布日： 2023-08-18 - 主分类号： G10L19/16
摘要：本申请实施例提供了一种音频数据处理方法、电子设备及存储介质，涉及数据处理技术领域，应用于可穿戴设备，上述方法包括：在接收到音频数据后，对音频数据的数据头进行预解析，得到预解析信息；判断预解析信息是否属于可穿戴设备能够解析的预设范围内；若是，则在接收到播放音频数据的播放指令后，对音频数据进行解析并播放；否则，则生成表示音频数据异常的提示信息，并在接收到用户针对提示信息输入的处理指令后，对音频数据进行处理指令指示的处理。应用本发明实施例可以保证可穿戴设备播放的音频数据为可穿戴设备能够解析的音频数据。

用于在不同回放设备之间优化响度和动态范围的系统和方法-201810859612.4
发明人： J·瑞德米勒;S·G·诺克罗斯;K·J·罗德恩 -专利权人：杜比实验室特许公司;杜比国际公司
申请日： 2014-01-15 - 公布日： 2023-08-18 - 主分类号： G10L19/16
摘要：本公开涉及用于在不同回放设备之间优化响度和动态范围的系统和方法。实施例涉及如下的方法和系统，其用于在位流中接收与音频数据相关联的元数据，并且分析该元数据以确定在位流中是否可获得用于第一组音频回放设备的响度参数。响应于确定存在用于第一组的参数，系统使用该参数和音频数据来呈现音频。响应于确定不存在用于第一组的响度参数，系统分析第一组的一个或多个特性并且基于该一个或多个特性来确定参数。

语音传输方法、系统、装置、计算机可读存储介质和设备-202010104793.7
发明人：梁俊斌 -专利权人：腾讯科技（深圳）有限公司
申请日： 2020-02-20 - 公布日： 2023-08-15 - 主分类号： G10L19/16
摘要：本申请涉及一种语音传输方法、系统、装置、计算机可读存储介质和设备，所述方法包括：获取语音编码码流中的当前编码数据；通过基于机器学习的丢包恢复能力预测模型，根据当前编码数据对应的第一语音编码特征参数以及当前编码数据的在前编码数据对应的第二语音编码特征参数，获得当前编码数据对应的丢包恢复能力；根据丢包恢复能力判决是否需要进行冗余编码处理；若是，则根据当前编码数据进行冗余编码生成相应的冗余包后，再将当前编码数据及冗余包传输至接收端；若否，则直接将当前编码数据传输至接收端。本申请提供的方案可以有效提升网络带宽的利用率，同时也能保证传输网络的抗丢包能力。

用于在不同回放设备之间优化响度和动态范围的系统和方法-201810859613.9
发明人： J·瑞德米勒;S·G·诺克罗斯;K·J·罗德恩 -专利权人：杜比实验室特许公司;杜比国际公司
申请日： 2014-01-15 - 公布日： 2023-08-15 - 主分类号： G10L19/16
摘要：本公开涉及用于在不同回放设备之间优化响度和动态范围的系统和方法。实施例涉及如下的方法和系统，其用于在位流中接收与音频数据相关联的元数据，并且分析该元数据以确定在位流中是否可获得用于第一组音频回放设备的响度参数。响应于确定存在用于第一组的参数，系统使用该参数和音频数据来呈现音频。响应于确定不存在用于第一组的响度参数，系统分析第一组的一个或多个特性并且基于该一个或多个特性来确定参数。

一种用于播放器的多媒体解码模块-202320641136.5
发明人：刘原照 -专利权人：深圳市芯蓝图科技有限公司
申请日： 2023-03-28 - 公布日： 2023-08-11 - 主分类号： G10L19/16
摘要：本实用新型涉及消费类电子技术领域，为了解决现有播放器音质不佳的技术问题，本实用新型公开了一种用于播放器的多媒体解码模块，包括USB控制器，用于音视频解码的DAC模块，用于多接口通信连接的控制模块，还设置有用于HiFi音调处理的音效处理模块，音效处理模块包括用于预放大音频信号的前级运放和用于后级放大的后级运放，前级运放和后级运放之间设置有用于分离高中低音的反馈式音调调节电路，后级运放包括用于放大左声道音频的第三运放和用于放大右声道音频的第四运放，第三运放和第四运放的输出端之间连接有用于左右声道平衡的平衡电位器。前级运放预放大提高信噪比，反馈式音调调节电路改善音频信号的频率响应特性。

一种音频数据转换播放方法、装置及音频播放器-202111045453.2
发明人：彭伟中 -专利权人：广州飞傲电子科技有限公司
申请日： 2021-09-07 - 公布日： 2023-08-08 - 主分类号： G10L19/16
摘要：本发明实施例公开了一种音频数据转换播放方法、装置及音频播放器，应用于装配安卓系统的音频播放器，从待转换音频缓冲区中提取待转换音频数据，并获取所述待转换音频数据的特征参数，其中，所述特征参数包括采样率、位深度和DSD音频数据转换类型，根据待转换音频数据的特征参数配置并启动转换线程，所述转换线程用于将待转换音频数据转换为DSD音频数据，根据DSD音频数据类型配置并启动播放线程，所述播放线程用于通过声音架构接口向内核层输出DSD音频数据。所述音频数据转换播放方法将转换步骤与播放步骤隔离开，从而保证将所有的待转换音频数据转换为DSD音频数据的同时，实现更为流畅的音频播放效果，优化用户体验。

控制编码器和/或解码器中的带宽-201880072654.1
发明人：马库斯·施奈尔;伊曼纽尔·拉维利;康拉德·本多尔夫;托拜厄斯·阿尔伯特;曼福莱特·卢次克;阿德里安·托马塞克 -专利权人：弗劳恩霍夫应用研究促进协会
申请日： 2018-11-06 - 公布日： 2023-08-08 - 主分类号： G10L19/16
摘要：提供编码和/或解码信息信号(例如，音频信号)的示例。在一个示例中，提供一种编码器设备，包含：多个频域FD编码器工具，用于编码信息信号，该信息信号呈现多个帧；以及编码器带宽检测器及控制器(39)，被配置为基于信息信号特性，为多个FD编码器工具的至少子群组(33，36)选择带宽，该子群组(33，36)包括少于多个FD编码器工具的FD编码器工具，使得该子群组(33，36)的FD编码器工具中的至少一个相对于不在该子群组(33，36)中的FD编码器工具中的至少一个具有不同的带宽。在一个示例中，提供一种解码器设备(40，40a)，包含：多个FD解码器工具(43‑48a)，用于解码被编码在比特流中的信息信号，其中，FD解码器工具被划分成：‑包含至少一个FD解码器工具(43，45)的子群组；‑包含至少一个FD解码器工具(44，46，48a)的剩余FD解码器工具；其中解码器设备(40，40a)被配置为基于比特流中包括的带宽信息，为子群组(43，45)的多个解码器工具中的至少一个选择带宽，使得该子群组(43，45)的多个解码器工具中的至少一个相对于多个解码器工具(44，46，48a)的剩余FD解码器工具中的至少一个，执行不同带宽的信号处理。

一种音频分段转码方法及装置-202310713378.5
发明人：罗准;吴坚强 -专利权人：湖南快乐阳光互动娱乐传媒有限公司
申请日： 2023-06-15 - 公布日： 2023-08-04 - 主分类号： G10L19/16
摘要：本发明公开了一种音频分段转码方法及装置，包括：在满足第一转码约束条件T的情况下，对当前音频进行分段，得到各个段落，每个段落中包含有预设数量的ts分片，各个段落满足第二转码约束条件，第二转码约束条件保证相邻段落产生两个ts分片的重叠区，对各个段落进行转码，针对转码后的各个段落中的首个段落，丢弃尾部ts分片，中间段落丢弃头部和尾部ts分片，尾部段落丢弃头部ts分片，得到各个目标ts分片；将各个目标ts分片依据时间顺序拼接，得到目标音频。上述过程，对段落衔接处的ts分片进行了删除，避免了段落衔接处引入上述静音数据的问题，并且在码流层操作，不需要构建新的片源片段，计算复杂度低，提高了转码的执行效率。

动态调整音频时钟的音频处理设备及音频处理方法-202210095189.1
发明人：杨振鹏;何东宇;孙健 -专利权人：瑞昱半导体股份有限公司
申请日： 2022-01-26 - 公布日： 2023-08-04 - 主分类号： G10L19/16
摘要：本发明公开一种动态调整音频时钟的音频处理设备及音频处理方法。音频处理设备包括第一接口、缓冲器、时钟发生器、处理器及第二接口。第一接口从主机接收音频数据。缓冲器存储音频数据以产生第一音频数据包并判断其数据量与第一上阈值及第一下阈值的关系。时钟发生器产生时钟信号。第二接口将第一音频数据包及时钟信号输出至编解码设备。当第一音频数据包的数据量小于第一下阈值时，缓冲器输出下溢中断信号以降低时钟信号的频率。当第一音频数据包的数据量大于第一上阈值，缓冲器输出溢出中断信号以提升时钟信号的频率。

声码器训练方法、音频合成方法、介质、装置和计算设备-202310423846.5
发明人：李鹏;刘华平;潘颂声 -专利权人：杭州网易云音乐科技有限公司
申请日： 2023-04-17 - 公布日： 2023-08-04 - 主分类号： G10L19/16
摘要：本公开的实施方式提供了一种声码器训练方法。该声码器训练方法包括：获取音频语料库中音频的第一基频序列；对第一基频序列进行基频扰动处理，得到第二基频序列；对第二基频序列进行映射处理，得到目标张量；对目标张量、音频对应的声学特征序列和音频进行训练，得到用于音频合成的声码器。本公开的方法通过引入基频扰动，提升了声码器在实际应用时对基频预测错误的鲁棒性，从而显著地提高了音频合成的准确性和质量，为用户带来了更好的体验。此外，本公开的实施方式提供了一种音频合成方法、介质、装置和计算设备。

语音模型的自适应量化压缩方法、系统和电子设备-202310572514.3
发明人：俞凯;王浩宇;刘贝;吴逸飞;钱彦旻 -专利权人：思必驰科技股份有限公司
申请日： 2023-05-19 - 公布日： 2023-08-01 - 主分类号： G10L19/16
摘要：本发明实施例提供一种语音模型的自适应量化压缩方法、系统和电子设备。该方法包括：对语音模型进行基于矩阵的敏感度分析，基于分析出的语音模型内神经网络不同层级对量化的敏感度差异，对语音模型进行混合精度量化压缩搜索，确定语音模型在设定压缩比下的参数权重分布；基于参数权重分布对语音模型的参数进行分隔处理，得到多个分隔区间，对分隔区间进行聚类，得到各分隔区间的量化目标值；利用各分隔区间的量化目标值对语音模型进行多阶段微调自适应量化压缩，得到轻量化语音模型。本发明实施例，在模型性能没有明显下降的基础上，减小了模型的大小，使其可以应用于存储空间受限的轻量型的设备中。

应用于IVD领域的语音播报系统-202320359102.7
发明人：王聪;翟莹莹;王宏国;王超;刘聪;魏文娟 -专利权人：安图实验仪器（郑州）有限公司
申请日： 2023-03-02 - 公布日： 2023-08-01 - 主分类号： G10L19/16
摘要：本实用新型公开了一种应用于IVD领域的语音播报系统，包括语音编码器、单片机、工控板、音频功放电路、扬声器、FLASH存储器和上位计算机，上位计算机与工控板连接，工控板通过CAN总线与单片机通信连接，单片机通过串口隔离模块与语音编码器、第一语音下载接口通信连接；语音编码器与FLASH存储器通信连接，FLASH存储器设置有第二语音下载接口；语音编码器输出端与耳机连接并与扬声器连接。本实用新型只需通过单片机进行语音播报控制，占用IVD诊断仪器软硬件资源很少，降低了IVD诊断仪器制造成本；工控板通过CAN命令控制单片机进行语音播报，语音播报内容及时方便地根据实际应用编辑替换，语音内容更新便捷。

一种阿拉伯语方言的标符预测模型的构建方法和装置-202310505137.1
发明人：林一侃 -专利权人：北京爱数智慧科技有限公司
申请日： 2023-05-08 - 公布日： 2023-07-21 - 主分类号： G10L19/16
摘要：本申请公开了一种阿拉伯语方言的标符预测模型的构建方法和装置，该方法包括以下步骤：对声学编码器和文本编码器分别进行单模态训练；基于第一训练数据，训练第一标符预测模型，并更新所述第一标符预测模型中的所述声学编码器、所述文本编码器以及多模态联合网络的参数；基于所述第一训练数据和第二训练数据，对第一标符预测模型进行微调，得到第二标符预测模型。本申请实施例使用多种模态的阿拉伯语数据在一个或多个阶段参与标符预测模型的训练，使得标符预测模型模型能够学习到更丰富的语言变体和风格场景，进而具有更大的潜在提升空间。

有效语音智能检测方法、装置及计算机可读存储介质-202010029673.5
发明人：马坤;刘微微;赵之砚 -专利权人：平安科技（深圳）有限公司
申请日： 2020-01-10 - 公布日： 2023-07-14 - 主分类号： G10L19/16
摘要：本发明涉及一种人工智能技术，揭露了一种有效语音智能检测方法，包括：接收噪声集及纯人声集，根据语言自相关函数将所述噪声集及所述纯人声集进行语音融合操作得到人声集及标签集，将所述人声集输入至预先构建的语音编码网络进行编码操作得到编码人声集，将所述编码人声集输入至语音注意力网络进行训练得到训练后的语音注意力网络，接收用户输入的语音集，将用户输入的所述语音集依次输入至所述语音编码网络、及所述训练后的语音注意力网络得到所述语音集的有效语音检测结果。本发明还提出一种有效语音智能检测装置以及一种计算机可读存储介质。本发明可以实现精准高效的有效语音智能检测功能。

无线数字语音基带传输系统及其方法-201610299171.8
发明人：桑明华 -专利权人：南京威翔科技有限公司
申请日： 2016-05-06 - 公布日： 2023-07-07 - 主分类号： G10L19/16
摘要：本发明公开了无线数字语音基带传输系统及其方法，涉及通信领域，包括音频输入接口、音频输出接口、第一功放、第二功放、音频改善电路、音频编码器、FPGA控制器和数据输出接口，采用全双工、半双工的语音压缩编解码，压缩速率模式则为2050b/s，2400b/s、2750b/s或3600b/s(带FEC功能)，采用以太网协议标准，具有高质量的扩大通信容量，使得在较窄的带宽内传送更多的语音数据。

音频数据处理方法、装置、电子设备和存储介质-202310397945.0
发明人：廖庚;王亮;黄振辉 -专利权人：北京算能科技有限公司
申请日： 2023-04-14 - 公布日： 2023-06-30 - 主分类号： G10L19/16
摘要：本公开提供一种音频数据处理方法、装置、电子设备和存储介质。所述方法包括：获取AAC类型的原始音频数据，原始音频数据中的数据包包含：ADTS头信息和音频帧数据；在将数据包的长度记录为第一长度时，跳过针对数据包的预设处理，第一长度为数据包中的音频帧数据的长度；针对跳过预设处理的数据包，将数据包的第一长度更新为第二长度，并调整数据包的后一个数据包的偏移位置；第二长度为数据包中的ADTS头信息的长度与第一长度之和；根据数据包的偏移位置及数据包的第二长度，将跳过预设处理的数据包封装到流媒体文件中。本公开通过将包含ADTS头信息的ACC音频数据封装到流媒体文件中，实现对流媒体文件解封装后的裸音频数据进行直接播放或加解密等操作。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]发送装置、发送方法、接收装置以及接收方法在审

专利文献下载