[发明专利]一种大语料音库裁剪方法在审

专利信息
申请号: 201710584805.9 申请日: 2017-07-17
公开(公告)号: CN107492371A 公开(公告)日: 2017-12-19
发明(设计)人: 谢泽鑫;李权;陈杰永;余亮;杨有科;冯国梁;冯婕;邹月荣;郭清霞 申请(专利权)人: 广东讯飞启明科技发展有限公司
主分类号: G10L13/04 分类号: G10L13/04;G10L13/08;G06F17/30
代理公司: 广州市一新专利商标事务所有限公司44220 代理人: 王德祥
地址: 510663 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种大语料音库裁剪方法,包括如下步骤采集所有领域的文本数据,作为辅助裁剪文本;利用所述辅助裁剪文本对大语料音库中的语音单元进行预选,得到预选的语音单元及该语音单元在预选过程中的使用频率;根据语音单元预选结果,计算语音单元的裁剪得分;根据每个语单元的裁剪得分,对大语料音库中预选语音单元进行裁剪,得到裁剪后的大语料音库。本发明大语料音库占用空间小,覆盖度高。
搜索关键词: 一种 语料 裁剪 方法
【主权项】:
一种大语料音库裁剪方法,其特征在于,包括如下步骤:采集所有领域的文本数据,作为辅助裁剪文本;利用所述辅助裁剪文本对大语料音库中的语音单元进行预选,得到预选的语音单元及该语音单元在预选过程中的使用频率;根据语音单元预选结果,计算语音单元的裁剪得分;根据每个语单元的裁剪得分,对大语料音库中预选语音单元进行裁剪,得到裁剪后的大语料音库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东讯飞启明科技发展有限公司,未经广东讯飞启明科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710584805.9/,转载请声明来源钻瓜专利网。

同类专利
  • 用于亲子教育的双语切换装置-201821664220.4
  • 谭辽 - 武汉辽疆科技有限公司
  • 2018-10-12 - 2019-11-12 - G10L13/04
  • 本实用新型涉及用于亲子教育的双语切换装置,包括相互通讯的终端设备和云端服务器,所述终端设备上设置有语音输入模块,双语切换执行模块,包含通讯单元的云端处理模块,语音输出模块;所述云端服务器包括顺次电连接的云端语音识别模块、云端语义理解翻译模块、云端目标语种语音合成模块,还包括存储模块。本实用新型的装置使得不会目标语种语言的父母可以顺畅地对孩子进行双语教育,比如英语,法语等;会识别教育引导者的语言并翻译成目标语种语言,然后复述给孩子听,添加了图片(像)可以更直观,加入了测评装置测试孩子学习的效果。
  • 歌唱合成方法、装置、设备以及计算机可读存储介质-201910407538.7
  • 朱清影;程宁;王健宗 - 平安科技(深圳)有限公司
  • 2019-05-16 - 2019-10-08 - G10L13/04
  • 本发明公开了一种歌唱合成方法、装置、设备以及计算机可读存储介质,该歌唱合成方法包括以下步骤:获取预设数字格式的待合成乐谱;提取所述待合成乐谱的乐谱特征;将所述乐谱特征输入预置的高斯混隐马尔可夫模型进行处理,输出对应的声学特征;通过声码合成器将输出的声学特征合成为与所述待合成乐谱对应的清唱音频。由于在训练高斯混隐马尔可夫模型使用的数据远小于现有的歌唱合成所需的数据,这样就无需耗费大量的人力和时间去收集数据,从而降低了歌唱合成的难度。
  • 一种单车立体车库的语音播报模块-201821976306.0
  • 赵锋;李晶;赵全良;周伟;崔砚鹏;王帅;文凡;田舒羽 - 西安塞利克斯智能科技有限公司
  • 2018-11-28 - 2019-09-24 - G10L13/04
  • 本实用新型公开了一种单车立体车库的语音播报模块,包括:XFS5152语音合成芯片单元、波特率选择单元和音频功放单元;XFS5152语音合成芯片单元包括XFS5152语音合成芯片和对应的外围电路,XFS5152语音合成芯片的BAUD1、BAUD2引脚与波特率选择单元相连,XFS5152语音合成芯片的A0_P引脚通过ADAC0与音频功放单元相连。本实用新型丰富播报内容,使用户在存车、取车等各种环节遇到问题时可得到及时的反馈;针对不同时间、不同场景选择不同的播报内容,改善用户体验。
  • 一种车辆启动引导装置-201910340026.3
  • 陈宝平;李鹏;张杰 - 北京首汽智行科技有限公司
  • 2019-04-25 - 2019-07-26 - G10L13/04
  • 本发明公开的车辆启动引导装置,包括包括车载终端、语音合成单元、语音播放单元及服务器,其中,车载终端通过无线通信模块与服务器连接并通过通用异步收发传输器UART与语音合成单元连接,用于获取当前车辆的型号并将型号发送至服务器,服务器用于为各个型号的车辆配置相应的文本数据,车载终端还用于持续检测车辆的状态并根据该状态从文本数据中获取与该状态对应的文字信息并将文字信息发送至语音合成单元,语音合成单元与语音播放单元连接,用于接收车载终端发送的文字信息并将所述文字信息转换为语音数据并将该语音数据发送至语音播放单元,实现了完全自主地引导用户使用车辆,减少了客服的工作量较大、提高了用户用车体验。
  • 电子书语音播报设备及方法-201910342941.6
  • 贾铮 - 贾铮
  • 2019-04-26 - 2019-07-26 - G10L13/04
  • 本申请涉及电数字数据处理领域,涉及一种电子书语音播报设备及方法。该电子书语音播报设备包括指示装置、处理装置和扬声器,指示装置和扬声器分别与处理装置连接。指示装置用于获取待播报电子书的指示信息,并将指示信息发送至处理装置。处理装置用于获得与指示信息对应的文本数据,将文本数据转换为音频数据,并发送至扬声器。扬声器用于将音频数据转换为声音信号,并对声音信号进行播报。本申请实施例提供的电子书语音播报设备及方法能够实现待播报电子书的语音播报,从而解决用户在眼睛疲劳,或光线不好的情况下无法正常阅读电子书的问题。
  • 语音合成方法、装置、计算机设备及存储介质-201910328125.X
  • 彭俊清;尚迪雅;王健宗 - 平安科技(深圳)有限公司
  • 2019-04-23 - 2019-07-19 - G10L13/04
  • 本发明公开了一种语音合成方法、装置、计算机设备及存储介质,其方法包括:获取语音样本;对所述语音样本进行特征提取,获得所述语音样本对应的声学特征序列;根据所述语音样本以及与其对应的所述声学特征序列对预设的声学模型进行训练,并将训练之后满足预设要求的所述声学模型确定为语音合成模型,所述预设的声学模型基于wavenet网络;获取从待合成语音文本中解析出的语音参数,将所述语音参数输入所述语音合成模型,获取所述语音合成模型输出的合成语音。本发明提供的语音合成方法,可以提高可模拟真人发音的声音处理系统的处理速度和正确率。
  • 验证应答话术的方法、装置、计算机设备和存储介质-201910175773.6
  • 张垒;邢艳;邹芳;李晋;占敏敏 - 平安科技(深圳)有限公司
  • 2019-03-08 - 2019-07-12 - G10L13/04
  • 本申请中提供了一种验证应答话术的方法、装置、计算机设备和存储介质,用于验证模拟用户应答人工智能语音系统的话术,包括:获取指定应用场景下预设语义对应的第一指定语料文本以及第二文本;将第一指定语料文本合成对应的第一录音;获取人工智能语音系统的第一语音问话,并根据第一语音问话提取第一录音进行语音交互应答;对提取的第一录音转写成第一转写文本,并从预设语义库中查找对应的第一语义;对应与所述第二文本、预设语义进行对比;若获取第一转写文本转写准确率低于100%或/和第一语义准确率低于100%,则得到所提取的所述第一录音有误,并在对应的语音交互应答处进行标记第一录音有误。无需人工进行一一测试,节省时间,降低验证的成本。
  • 一种TTS的方法及系统-201910456474.X
  • 司马华鹏;毛志强 - 南京硅基智能科技有限公司
  • 2019-05-29 - 2019-07-05 - G10L13/04
  • 本发明公开了一种TTS的方法,解决了合成音频拟人声性较差的问题,其技术方案要点是采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。
  • 一种采用虚拟键盘的智能音箱及其语言识别方法-201910043774.5
  • 许钢;叶长春;刘莉;王林;胡政;王飞虎;王晨 - 安徽工程大学
  • 2019-01-17 - 2019-06-07 - G10L13/04
  • 本发明公开了一种采用虚拟键盘的智能音箱及其语言识别方法,涉及语言识别与控制领域,包括语言模块:采集使用者发出的语言信号,对所述语言信号进行识别与处理,控制智能音箱进行相应动作;虚拟键盘模块:采集所述使用者手动输入的文字指令,对所述文字指令机芯识别与处理,控制智能音箱进行相应动作;转换模块:关闭所述语言模块并开启所述虚拟键盘模块,或者开启语言模块并关闭虚拟键盘模块,本发明给智能音箱增加虚拟键盘解决目前语言识别技术在方言识别时识别率低导致的智能音箱无法满足每个用户的使用需求的问题,使得智能音箱的语言识别受众群体扩大,满足更多群体的使用要求,使用者可以获得更好地使用体验。
  • 一种情感语音合成控制方法和装置-201811604136.8
  • 张胜;鲁斌;孔东泉 - 广州灵聚信息科技有限公司
  • 2018-12-26 - 2019-05-03 - G10L13/04
  • 本发明公开了一种情感语音合成控制方法和装置,其中,所述方法包括获取需要进行语音合成的文本信息;按照预设方法对文本信息进行语义分析,并生成用于表征与文本信息相适应的配音效果的人物分析结果;根据人物分析结果生成控制信号以控制语音合成引擎合成与控制信号相对应的情感语音。本发明公开的方案能够根据文本信息进行语音合成,从而使合成后的语音具备情感。
  • 使用音频信号的固定分区大小卷积的声音合成-201410232411.3
  • L.贝特贝德;S.奎雷西 - 索尼电脑娱乐美国公司
  • 2014-05-28 - 2019-04-12 - G10L13/04
  • 提供一种用于卷积输入信号和脉冲响应函数的方法,脉冲响应函数被分割成相同大小的多个时间段,所述方法包括将输入信号的段变换到频域以生成输入信号的段的频谱;将输入信号的段的频谱乘以脉冲响应函数的每个段的频谱;缩放来自频谱的乘法的结果;累加缩放结果;以及对累加信号执行逆变换以生成时域中的期望的卷积信号。缩放包括对乘法结果执行逐位移位运算,并且执行逐位移位运算包括在逐位移位运算之前向乘法结果添加位。可以通过使用定点算术执行缩放输入信号、乘法和累加来实现均匀分割的脉冲响应函数的快速卷积。
  • 语音合成字典创建装置以及语音合成字典创建方法-201380077502.8
  • 橘健太郎;森田真弘;笼岛岳彦 - 株式会社东芝
  • 2013-06-20 - 2019-04-05 - G10L13/04
  • 根据实施例的语音合成字典创建装置包括第一语音输入单元、第二语音输入单元、确定单元以及创建单元。第一语音输入单元接收第一语音数据的输入。第二语音输入单元接收被认为是适当的语音数据的第二语音数据的输入。确定单元确定第一语音数据的说话人是否与第二语音数据的说话人相同。当确定单元确定第一语音数据的说话人与第二语音数据的说话人相同时,创建单元使用第一语音数据以及与第一语音数据对应的文本来创建语音合成字典。
  • 事件语音播报方法、装置及家电设备-201811459597.0
  • 颜林 - 广东美的制冷设备有限公司;美的集团股份有限公司
  • 2018-11-30 - 2019-03-26 - G10L13/04
  • 本申请提出一种事件语音播报方法、装置及家电设备,其中,方法包括:获取当前设备的事件消息;获取当前设备的设备标识和设备属性;发送设备标识、设备属性和事件消息,以使与设备标识匹配的目标播报设备根据设备属性和事件消息合成播报信息并播放。由此,实现了根据设备事件触发语音播报,提高了语音播报的个性化程度,解决了相关技术中针对设备功能性的语音播报较为单一效果不理想的问题,并且,可以通过一个播报设备播放多个设备的事件语音。
  • 一种面向智能机器人的故事数据处理方法及装置-201811155487.5
  • 贾志强 - 北京光年无限科技有限公司
  • 2018-09-30 - 2019-03-15 - G10L13/04
  • 一种面向智能机器人的故事数据处理方法,其包括:步骤一、对待输出故事文本进行自然语言理解处理,得到待输出故事文本的文本特征信息;步骤二、确定文本特征信息所对应的配置信息;步骤三、根据配置信息调用相应的音乐和/或音效,并将音乐和/或音效添加到待输出故事文本所对应的TTS音频文件中,合成得到待输出故事音频。本方法借助于人工智能手段,只需要根据所提供的待输出故事文本即可生成一个丰富多彩的故事音频,相较于现有的TTS转换得到的故事音频更加地符合人类的使用特征,其可以有效避免所输出的故事音频过于机械化,这样也就可以使得用户能够享受到与“人”的交互过程,而不是与冷冰冰的机器人的交互过程。
  • 一种与聋哑人双向交流的发声手套装置-201811606522.0
  • 韩思清 - 韩思清
  • 2018-12-27 - 2019-03-08 - G10L13/04
  • 本发明公开了一种与聋哑人双向交流的发声手套装置,包括:开关阵列、倾角传感器、控制器、通信模块、语音合成模块、扬声器、语音采集模块、显示模块、网络模块、麦克风、电池和手套。该手套装置,能够实现聋哑人与正常人之间的双向交流:聋哑人向正常人发送信息时,发声手套装置通过采集手指动作、感知手掌倾角,根据手指动作和手掌倾角形成编码并发出声音信息;正常人向聋哑人发送信息时,发声手套装置通过采集正常人说话的语音,并对语音进行识别,再将识别信息显示在显示器上,供聋哑人阅读。
  • 用于亲子教育的双语切换装置-201811191473.9
  • 谭辽 - 武汉辽疆科技有限公司
  • 2018-10-12 - 2019-01-25 - G10L13/04
  • 本发明涉及用于亲子教育的双语切换装置,包括相互通讯的终端设备和云端服务器,所述终端设备上设置有语音输入模块,双语切换执行模块,包含通讯单元的云端处理模块,语音输出模块;所述云端服务器包括顺次电连接的云端语音识别模块、云端语义理解翻译模块、云端目标语种语音合成模块,还包括存储模块。本发明的装置使得不会目标语种语言的父母可以顺畅地对孩子进行双语教育,比如英语,法语等;会识别教育引导者的语言并翻译成目标语种语言,然后复述给孩子听,添加了图片(像)可以更直观,加入了测评装置测试孩子学习的效果。
  • 用于语音交互的方法和装置-201811209944.4
  • 王文宇 - 百度在线网络技术(北京)有限公司
  • 2018-10-17 - 2019-01-25 - G10L13/04
  • 本申请实施例公开了用于语音交互的方法和装置。该方法的一具体实施方式包括:获取用户输入的语音信息;基于所获取的语音信息确定与所获取的语音信息匹配的应答角色;使用预先针对应答角色录制的语音或根据应答角色的声音特征参数合成的语音,对所获取的语音信息进行应答。该实施方式提供了一种基于语音信息确定应答角色的语音交互机制,丰富了语音交互方法。
  • 一种快速进行语音播放的方法-201811159537.7
  • 孙成通;李杨;张金清;胡焱;付宪瑞 - 苏州浪潮智能软件有限公司
  • 2018-09-30 - 2019-01-01 - G10L13/04
  • 本发明公开了一种快速进行语音播放的方法,第一步,预先合成,将待播放文本的音频缓存预先合成,并把合成的音频文件保存在本地系统中;第二步,传入待合成文本,将需要合成的文本传入系统中并进行自动匹配;第三步,匹配本地系统缓存音频,在本地系统中查找是否存在相匹配的音频文件;第四步,播放合成结果,在本地系统缓存中若存在匹配的音频文件则直接播放本地文件;若不存在则合成、播放并把音频文件缓存在本地系统中;本发明非常显著地提升语音播放的速度,近乎实时播放音频、节省网络流量与带宽极大地提升了用户的体验,且该语音播放模块可以播放在所有的自助设备上,所以前景十分广阔与巨大。
  • 一种语音合成器-201711389692.3
  • 杨永东 - 重庆金鑫科技产业发展有限公司
  • 2017-12-21 - 2018-05-29 - G10L13/04
  • 本发明公开了一种语音合成器,包括语音合成模块和语音采集模块,还包括:控制器和控制源;控制器分别与语音采集模块、语音合成模块和控制源连接,当控制器接收到语音采集模块采集的语音信号时,根据预先设置的逻辑对应关系触发与目标设备对应的控制源以控制目标设备工作,并根据目标设备的反馈信号控制语音合成模块输出与语音信号相对应的目标语音。控制器可以通过语音采集模块采集的语音信号触发控制源进而控制目标设备,并且控制器可以依据反馈信号控制语音合成模块输出目标语音,也就是说,该语音合成器不仅可以对语音信号进行合成,而且可以控制目标设备工作,解决了传统的语音合成器功能单一,无法对目标设备进行控制的问题。
  • 居家养老服务平台-201710526596.2
  • 潘晓明;彭罗 - 重庆柚瓣家科技有限公司
  • 2017-06-30 - 2017-11-21 - G10L13/04
  • 本专利属于居家养老服务领域,具体公开了一种可对服务机构进行效监督,辅助老人对服务内容进行客观评价的居家养老服务平台,包括养老机器人、云端服务器、服务机构终端;养老机器人包括行走机构、语音识别模块、视频采集模块以及语音合成模块,用于与老人语音交互,采集老人需求,养老机器人将采集到的老人的需求信息发送至云端服务器;云端服务平台用于接收老人向养老机器人提出的需求,云端服务器还用于将该需求信息发送至服务机构终端;服务机构终端用于向云端服务平台发送该服务机构能够提供的服务项目信息,服务机构终端还用于接收云端服务平台发送的需求信息,服务机构终端接收到需求信息后可确认或者拒绝根据该需求信息为老人提供服务。
  • 一种基于FPGA的藏语语音合成装置-201621322986.5
  • 杨鸿武;张帅;甘振业 - 西北师范大学
  • 2016-12-05 - 2017-09-19 - G10L13/04
  • 本实用新型公开了一种基于FPGA的藏语语音合成装置,包括FPGA芯片,文本输入设备,FLASH存储器,SDRAM存储器,音频输出设备;所述FPGA芯片包括Nios Ⅱ软核处理器、Avalon总线、输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器以及用于语音合成的协处理器;所述Nios Ⅱ软核处理器通过所述Avalon总线分别与输入设备控制器、FLASH存储器接口、SDRAM控制器、音频控制器、PLL锁相环、UART控制器和协处理器相连;所述文本输入设备与文本输入控制器相连,所述FLASH存储器与FLASH存储器接口相连,SDRAM存储器与SDRAM控制器相连,音频输出设备与音频控制器相连,实现藏语文本到藏语语音的转换。
  • 语音合成方法和装置-201510417099.X
  • 谢延;李秀林;白洁 - 百度在线网络技术(北京)有限公司
  • 2015-07-15 - 2017-06-20 - G10L13/04
  • 本发明提出一种语音合成方法和装置,该语音合成方法包括对文本进行处理,获得待合成文本;当存在网络连接时,将所述待合成文本发送给在线语音合成系统进行语音合成;如果在所述在线语音合成系统进行语音合成的过程中,所述在线语音合成系统出现故障或者实际使用过程中网络连接中断,则将所述在线语音合成系统未完成语音合成的文本发送给离线语音合成系统进行语音合成。本发明结合在线语音合成与离线语音合成的优点,可以提供更稳定、效果更自然的语音合成服务,保证了用户的语音合成请求总是可以顺利地完成,提高了用户对语音合成服务的认可度和用户体验度。
  • 一种嵌入式播报系统壳体-201621266242.6
  • 白涛;王磊;寇晓斌;杨抒;吴乃宁;吴艳;程鲁玉 - 新疆农业大学
  • 2016-11-22 - 2017-06-13 - G10L13/04
  • 本实用新型公开的是一种嵌入式播报系统壳体,包括底板、PCB保护板、无接口短边侧板、铜支柱一、PCB板、长侧板一、显示屏、信号发射板、RS232接头、面板、有接口短边侧板、RS232接头锁板、长侧板二。所述底板、面板、无接口短边侧板、有接口短边侧板、以及长侧板一、长侧板二作为六个面围城一个长方体,所述PCB保护板、PCB板、显示屏、信号发射板、RS 232接头均设在长方体内。本实用新型构造合理,使用方便,安全稳定,可为应急短信通过安全验证机制配合PC转换成语音并广播到指定区域提供载体,在提高灵活度的同时大大降低应急广播的铺设成本。
  • 组合本地和远程生成的语音数据的话音提示生成-201580041195.7
  • N·佩蒂尔;S·乔德里 - 伯斯有限公司
  • 2015-06-30 - 2017-04-19 - G10L13/04
  • 一种电子设备,包括处理器和耦合到该处理器的存储器。存储器存储指令,当由处理器执行时,使得处理器执行操作,这些操作包括确定从无线设备接收到的文本提示是否对应于存储在存储器处的第一合成语音数据。这些操作包括,响应于文本提示不对应于第一合成语音数据的确定,确定网络是否可访问。这些操作包括响应于网络可访问的确定,经由网络向服务器发送文本到语音(TTS)转换请求。该操作还包括,响应于从服务器接收第二合成语音数据,将第二合成语音数据存储在存储器中。
  • 用于共享调适语音简档的方法和设备-201480022470.6
  • J.G.弗鲁克图索;J.沙尔克威克 - 谷歌公司
  • 2014-01-15 - 2017-02-08 - G10L13/04
  • 提供了用于共享调适语音简档的方法和系统。该方法可包括在计算系统处接收一个或多个话音样本,并且一个或多个话音样本可包括多个口说话语。该方法还可包括在计算系统处确定语音简档,该语音简档与多个口说话语的语者相关联,并且包括语者的调适语音。更进一步地,该方法可包括在计算系统处接收与所确定的语音简档相关联的授权简档,并且授权简档可包括与一个或多个相应的用户相关联的一个或多个用户标识符。再进一步地,该方法可包括,至少部分基于授权简档,计算系统向与一个或多个相应的用户相关联的至少一个计算设备提供语音简档。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top