[发明专利]基于语音合成技术的多功能阅读器有效

申请号：	201310083450.7	申请日：	2013-03-16
公开（公告）号：	CN104050962B	公开（公告）日：	2019-02-12
发明（设计）人：	李军;李启超;窦超强;袁文斌	申请（专利权）人：	广东恒电信息科技股份有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G09B5/04;H04L29/06
代理公司：	佛山东平知识产权事务所(普通合伙) 44307	代理人：	詹仲国
地址：	510630 广东省广州市天河区五山路246、2***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于语音合成技术的多功能阅读器，其特征在于，它包括接用户客户端的电子阅读器模块、语音合成服务器模块和内嵌有Linux系统的微处理器，电子阅读器模块与语音合成服务器模块连接，电子阅读器模块、语音合成服务器模块分别连接微处理器。本发明结构简单，使用操作方便，低耗能、节约成本。
搜索关键词：	基于语音合成技术多功能阅读器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语音合成技术的多功能阅读器，其特征在于，它包括接用户客户端的电子阅读器模块、语音合成服务器模块和内嵌有Linux系统的微处理器，电子阅读器模块与语音合成服务器模块连接，电子阅读器模块、语音合成服务器模块分别连接微处理器，实现多种格式的文件朗读和选定文本朗读功能，语音合成服务器模块能够浏览和朗读txt、pdf和html格式的文件，语音合成服务器模块能自动合成普通话，粤语和英语；电子阅读器模块包括显示屏、通讯模块、UI模块、交互模块和信号处理模块，通讯模块负责和语音合成服务器模块建立连接，发送请求和接收语音数据；UI模块负责文件的显示、窗口部件的布局；交互模块执行用户的操作；信号处理模块设置信号处理函数，实现信号处理函数；语音合成服务器模块包括初始化模块、并发服务模块、处理模块、I/O模块和语音合成模块，初始化模块将服务器进程初始化为一个守护进程，然后创建一个Unix域套接字，从配置文件中读取协议地址初始化套接字，接着设置信号处理函数完成初始化；并发服务模块是在初始化完成后，服务器开始执行死循环，在循环体内调用accept函数进入睡眠状态，客户连接请求到达后, accept函数返回，主进程每个客户调用fork派生一个子进程为客户提供服务；处理模块是完成请求数据包的解析，根据不同的请求进行相应的处理，并把处理结果封装成数据包；I/O模块是负责从客户读取数据和向客户发送数据；UI模块使用多平台的C++图形用户界面应用程序框架Qt，Qt支持TTF、BDF、PFA/PFB和QPF这四种格式的字库；在阅读器中采用TTF格式字体；语音合成模块由文本分析、韵律处理和语音合成三部分组成，完成文本到语音的转换；这个过程的工作是将输入的文本按字或词分解为音素，并且对文本中的数字、货币单位、单词变形以及标点要特殊处理的符号进行分析，以及将音素生成数字音频然后用扬声器播放出来或者存为声音文件以后用多媒体软件播放；文本分析的主要任务有：对输入的文本进行预处理，使得文本规范化；具体的做法包括去掉一些多余的空格或者换行符，把标点符号转换成一些特殊的标记，包括将停顿时间相同的、声调变化一致的标点符号统一转换为某种特殊标记；2.分词，得到规范的文本后，将文本切成若干的字和词；使用查字典法实现分词，把一个句子从左向右扫描一遍，遇到字典里有的词就标识出来，遇到复合词就找最长的词匹配，遇到不认识的字串就分割成单字词；3.将分解后的文本转换为注音符号表示形式并添加控制符，对分词得到的字和词查找其对应的音标然后拼接起来，完成由字词到音标的转换过程；文本分析的结果作为韵律处理的输入；韵律处理主要是对声调、节奏进行处理，包括出现连续两个第三声时，就对其进行降调，使合成语音能正确表达语意；在最后的语音合成阶段，将韵律处理模块的输出作为语音合成模块的输入；语音合成模块对于每一个注音符号在语音库中查找对应的实例，然后将文本句子对应的所有注音符号的实例拼接起来，在拼接过程中根据控制符的语义对语音实例的音长、韵律特征和停顿时间进行调整，最后输出一个句子的完整的拼音数据流；实现语音合成，还需要完成几项准备工作：创建常用汉字Unicode码到音标的映射表；创建常用词组Unicode码到音标的映射表；创建中文声音库；声音库记录了普通话和粤语中全部音标的发音，由字和词为单位的wav格式文件组成；用户客户端与服务器通讯采用的是Unix域协议；所述电子阅读器模块采用QML实现用户界面，在QML嵌入JavaScript代码实现页面逻辑，语音合成通过Microsoft Speech SDK 5.1提供的语音接口实现；Microsoft Speech SDK提供关于语音处理的一套应用程序编程接口SAPI，SAPI提供了实现TTS程序的基本函数，为一个应用程序和语音引擎之间提供一个高级别的接口；SAPI 实现了所有必需的对各种语音引擎的实时的控制和管理低级别的细节，应用程序能通过IspVoice的对象组建模型接口控制文本语音转换。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东恒电信息科技股份有限公司，未经广东恒电信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310083450.7/，转载请声明来源钻瓜专利网。

上一篇：可调控局域温场的石墨承载盘
下一篇：一种LED节能灯用光源模块及LED节能灯

同类专利

发话装置、该发话装置的控制方法及该发话装置的控制程序-201780088789.2
发明人：滨村博康 -专利权人：夏普株式会社
申请日： 2017-12-21 - 公布日： 2019-11-12 - 主分类号： G10L13/08
摘要：抑制个人信息等泄露给第三者。智能电话(1)具备：人情况确定部(13)，其通过分析拍摄了本装置的周围的图像，执行确定存在于本装置的周围的人和其人数；可否发话决定部(14)，其根据所述确定结果决定是否发话。

语音合成方法、系统、终端设备和可读存储介质-201910516181.6
发明人：彭话易;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-14 - 公布日： 2019-10-25 - 主分类号： G10L13/08
摘要：本发明涉及语音语义领域，具体涉及一种语音合成方法、系统、终端设备和可读存储介质，通过确认欲合成的目标语音所要表达的情绪标签，并根据所述情绪标签生成情绪标签向量，然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图；再根据所述梅尔语谱图生成所述目标语音，且所述目标语音能够表达出不同的情绪，如高兴、愤怒以及悲伤，进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。

一种基频建模方法及系统-201510195120.6
发明人：殷翔;江源;王影;胡国平;胡郁;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2015-04-22 - 公布日： 2019-10-18 - 主分类号： G10L13/08
摘要：本发明公开了一种基频建模方法及系统，该方法包括：将韵律层从高到低依次划分为：短语层、单词层、音节层、音素层、状态层，所述短语层和所述单词层为较高韵律层，所述音节层、所述音素层和所述状态层为较低韵律层；确定所述音节层包含的声调信息对较高韵律层基频建模的影响；根据所述韵律单元的基频特征采用迭代方式从高到低逐层构建基频模型，并且对于较高韵律层，在构建基频模型时去除所述音节层包含的声调信息对较高韵律层基频建模的影响。利用本发明，能有效消除声调信息对较高韵律层建模的影响，进而能更自然地预测出基频特征。

语音合成方法、系统、终端设备和可读存储介质-201910515578.3
发明人：彭话易;王健宗 -专利权人：平安科技（深圳）有限公司
申请日： 2019-06-14 - 公布日： 2019-10-15 - 主分类号： G10L13/08
摘要：本发明提出一种语音合成方法、系统、终端设备和可读存储介质，通过获取文本数据和真人录音，并根据所述文本数据生成文本向量，再对真人录音所具有的韵律进行建模以生成韵律向量；然后结合所述文本向量和所述韵律向量生成目标语音，从而实现将真人录音中的韵律转移到合成的语音中。同时，本发明还通过真人录音中的韵律进行建模，并基于全局条件概率生成的方法，使合成的语音与输入的真人录音具有更为相似的韵律，进一步使合成语音具有高保真和高自然度的效果。

多发音人语音合成方法、系统及装置-201910563533.3
发明人：陶建华;傅睿博;温正棋 -专利权人：中国科学院自动化研究所
申请日： 2019-06-26 - 公布日： 2019-10-15 - 主分类号： G10L13/08
摘要：本发明涉及一种多发音人语音合成方法及系统，所述合成方法包括：从多发音人语料库中进行语音声学统计特征提取，得到句子级别字典及音素级别字典；基于文本分析方法，从待测文本中提取文本特征；将所述文本特征与句子级别字典及音素级别字典动态结合，得到音素相关的发音人特征；基于平均子模型和自适应子模型，根据所述文本特征及发音人特征，确定发音人语音信息；根据所述发音人语音信息，通过基于神经网络的声码器，合成语音。本发明将所述文本特征与句子级别字典及音素级别字典动态结合，得到音素相关的发音人特征，从而可提高对对发音人发音特征的精细描述；进一步通过基于神经网络的声码器，合成语音，从而可有效提供语音合成的准确性。

方言转换方法及装置-201510958317.0
发明人：宋治云;姜史哲 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-12-18 - 公布日： 2019-10-15 - 主分类号： G10L13/08
摘要：本申请提出一种方言转换方法和装置，其中，该方法包括：接收第一方言输入信息；将所述第一方言输入信息合成第二方言语音信息；播放所述第二方言语音信息。通过本发明提供的方言转换方法和装置，实现了对输入方言的识别，并语音输出目标对象能识别的方言，提高了信息处理的灵活性和实用性。

语音字体说话者以及韵律插值-201580010713.9
发明人：栾剑;L·何;M·梁 -专利权人：微软技术许可有限责任公司
申请日： 2015-02-23 - 公布日： 2019-10-15 - 主分类号： G10L13/08
摘要：提供了多语音字体插值。多语音字体插值引擎允许通过对来自现有的字体的说话者特性和韵律进行插值，而产生具有宽泛的多种说话者特性和/或韵律的计算机生成的话音。使用来自多语音字体的预测模型，多语音字体插值引擎预测对从待说出的文本中所获得的音素序列的说话者特性和/或韵律有影响的参数的值。对于每个参数，通过根据所预测的值的加权的插值而生成额外的参数值。利用经插值的参数值来修改现有的语音字体改变了话音的风格和/或情绪，同时保留了原始的语音的基本音质。多语音字体插值引擎允许说话者特性和/或韵律从一个语音字体移植到另一个语音字体，或者允许针对现有的语音字体而生成全新的说话者特性和/或韵律。

语音合成方法、装置、设备及计算机可读存储介质-201910420154.9
发明人：王健宗;孙奥兰;彭话易;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2019-05-20 - 公布日： 2019-09-27 - 主分类号： G10L13/08
摘要：本申请提供一种语音合成方法、装置、设备及计算机可读存储介质，该方法包括：确定参考语音序列，并获取语音合成模型和待合成的目标文本序列对应的目标文本向量；通过所述参考编码器对所述参考语音序列进行编码，得到所述参考语音序列对应的目标参考嵌入向量；通过所述风格标记层对所述目标参考嵌入向量进行风格标记，得到所述参考语音序列对应的目标风格嵌入向量；通过所述语音合成层基于所述目标文本向量和所述目标风格嵌入向量，执行语音合成操作，得到目标语音。本申请涉及语音合成，通过目标风格嵌入向量和目标文本向量，共同合成语音，可以得到按照该目标风格嵌入向量表达的语音韵律合成语音，可以有效的提高合成语音的表达力精确性。

用于发音学习的计算机实现的方法、计算机可读介质和系统-201480030812.9
发明人：彭福春;弗朗索瓦丝·博费;布莱恩·帕特里克·斯特罗普;雷欣;佩德罗·J·莫雷诺·门吉巴尔;特雷弗·D·施特勒曼 -专利权人：谷歌有限责任公司
申请日： 2014-03-26 - 公布日： 2019-09-10 - 主分类号： G10L13/08
摘要：用于确定用于特定词语的发音的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。该方法、系统和装置包括获取与特定词语相对应的语音的音频样本和获取用于特定词语的候选发音的操作。进一步的操作包括：针对用于特定词语的每个候选发音和与特定词语相对应的语音的音频样本，生成反映该候选发音与音频样本之间的相似水平的评分。附加操作包括累积每个候选发音的评分，并且基于候选发音的累积评分，将用于特定词语的一个或多个候选发音添加到发音词典中。

语音合成方法及装置、电子设备和计算机可读介质-201910458202.3
发明人：李红岩;刘岩;党莹;贺雄彪;邓文忠;李玉莹 -专利权人：泰康保险集团股份有限公司
申请日： 2019-05-29 - 公布日： 2019-09-06 - 主分类号： G10L13/08
摘要：本公开提供一种语音合成方法、装置以及电子设备和计算机可读介质，涉及语音处理技术领域，该方法包括：获取语音合成请求，所述语音合成请求中包括目标场景标识以及待转换文本信息；根据所述目标场景标识确定语音合成参数；根据所述语音合成参数将所述待转换文本信息转换为语音数据。本公开实施例提供的语音合成方法可以支撑多应用场景，可以有效提高语音合成资源的利用率。

确定文本语音单元的方法及系统-201510227742.2
发明人：祖漪清;王影;胡国平;胡郁;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2015-05-06 - 公布日： 2019-09-03 - 主分类号： G10L13/08
摘要：本发明公开了一种确定文本语音单元的方法及系统，该方法包括：接收待处理文本；确定所述待处理文本的音素集合；根据所述音素集合对所述待处理文本进行字音转换，得到所述待处理文本的语音符号序列；确定所述语音符号序列中的各音节结构；在各音节结构内，将声学层面紧密结合的音素组合在一起扩充为音素串；根据所述音素串及所述语音符号序列确定所述待处理文本的语音单元。利用本发明，可以有效避免紧密结合的语音单元被强行拆分的问题。

文本处理的方法、装置和电子设备-201910279457.3
发明人：官砚楚;陈力;曾晓东 -专利权人：阿里巴巴集团控股有限公司
申请日： 2019-04-09 - 公布日： 2019-08-30 - 主分类号： G10L13/08
摘要：本申请实施例公开公开了一种文本处理的方法、装置和电子设备，属于互联网技术领域，该方法包括：获取音节数据，所述音节数据包括待处理中文文本中每个汉字的音节，所述每个汉字的音节包括多个组成部分；确定所述每个汉字的音节的多个组成部分对应的标识，其中，不同的组成部分对应的标识不同；生成与所述标识对应的向量。

语音合成方法及装置、计算机设备及可读介质-201810565148.8
发明人：顾宇;孙晓辉 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-06-04 - 公布日： 2019-08-27 - 主分类号： G10L13/08
摘要：本发明提供一种语音合成方法及装置、计算机设备及可读介质。其方法包括：在语音拼接合成出现问题语音时，根据预先训练的时长预测模型和基频预测模型，预测问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频；根据目标文本对应的每个音素的状态的时长以及每一帧的基频，使用预先训练的语音合成模型，合成目标文本对应的语音；时长预测模型、基频预测模型和语音合成模型均基于语音拼接合成的音库训练得到。本发明的技术方案，避免补充录制语料重新建库，可以有效地缩短问题语音修复的时间，节省问题语音修复成本；可以保证合成后的语音的自然度和连续性得到改善，且与拼接合成的语音音质相比，不会发生改变，不会影响用户的听感。

基于人工智能的字母音素转换模型生成方法及装置-201610102345.7
发明人：陈志杰;康永国 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2016-02-24 - 公布日： 2019-07-30 - 主分类号： G10L13/08
摘要：本申请提出一种基于人工智能的字母音素转换模型生成方法及装置，其中，该方法包括：在应用神经网络对训练数据中的每个单词进行字母音素转换的每次训练过程中，按照预设的节点比例对所述神经网络的隐层节点进行随机筛选，获取用于训练每个单词的保留节点；应用与所述保留节点对应的子神经网络训练对应的单词，更新所述子神经网络各保留节点的相关权重；最终对所有子神经网络各保留节点的相关权重进行均值处理，生成字母音素转换模型。通过本申请提供的基于人工智能的字母音素转换模型生成方法和装置，提高了字母音素转换模型的学习能力和泛化能力，从而避免了过拟合现象。

一种多语种混语文本处理方法及系统-201510278726.6
发明人：祖漪清;闫润强;王影;胡国平;胡郁;刘庆峰 -专利权人：科大讯飞股份有限公司
申请日： 2015-05-27 - 公布日： 2019-07-30 - 主分类号： G10L13/08
摘要：本发明公开了一种多语种混语文本处理方法及系统，包括：根据发音原理确定用于描述混语文本发音情况的超音素集合，所述超音素集合包括：元音音素集合和辅音音素集合；收集包含主语种和次语种的混语文本；从所述混语文本中提取语法单元；根据所述语法单元及所述超音素集合构建混语文本的通用词典，所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息；根据所述通用词典对所述混语文本进行字音转换，得到对应所述混语文本的语音符号序列。利用本发明提供的方法，可以解决当多语种混语文本对应主语种与次语种语音结构差别较大时，容易造成主语种缺失的次语种音素发音缺失的问题，从而提升多语种混语语音系统文本处理的应用效果。

一种用于将文本数据转换为多种语音数据的系统和方法-201780058123.2
发明人：苏德赫·邦格拉姆邦迪;阿克斯·摩提拉当格瑞 -专利权人：欧斯拉布斯私人有限公司
申请日： 2017-07-21 - 公布日： 2019-07-30 - 主分类号： G10L13/08
摘要：本发明提供了一种用于将文本数据转换为语音数据的系统和方法。首先，该系统使用户能够从计算设备的操作系统(OS)所支持的多种语言中选择语言。此外，在选择和复制任何文本数据时，系统向用户提供收听文本数据的音频输出的选项。当文本数据的语言是OS支持的多种语言中的一种语言时向用户提供用于以英语或所选择的语言收听文本数据的选项。此外，对于任何语言的文本数据，为用户提供了用英语收听文本数据的选项。一旦用户选择该选项，系统就将文本数据转换为语音数据。该语音数据作为一音频输出提供给用户。

信息处理方法和装置-201910256349.4
发明人：高澍;张亮 -专利权人：联想（北京）有限公司
申请日： 2019-03-29 - 公布日： 2019-07-23 - 主分类号： G10L13/08
摘要：本公开提供了一种信息处理方法。所述信息处理方法包括：获得播报内容，所述播报内容至少包括多个第一字符，所述多个第一字符未构成词组；调用语音播报单元；基于所述语音播报单元处理所述播报内容，且以语音方式输出所述播报内容。本公开还提供了另一种信息处理方法，所述信息处理方法包括获得至少一个匹配项，每个所述至少一个匹配项包括多个第一字符以及替代词语，调用语音播报单元，以及所述语音播报单元基于所述至少一个匹配项处理播报内容，以使得所述语音播报单元播报到所述多个第一字符时至少播报所述替代词语的语音。本公开还提供了相应的信息处理装置。

一种基于自定义语音库的语音合成方法及装置-201910113373.2
发明人：吴壮伟 -专利权人：平安科技（深圳）有限公司
申请日： 2019-02-14 - 公布日： 2019-06-18 - 主分类号： G10L13/08
摘要：本发明公开了一种基于自定义语音库的语音合成方法及装置。其中，一种基于自定义语音库的语音合成方法如下：分别在每一个场景类别下训练对应的语音模型，所述场景类别的数量为至少一个；判断所需场景，选择所述场景类别下的所述语音模型；所述语音模型接收外部信息输入，并根据外部信息输出符合所需场景的合成语音。以上方案中用户构建语音库，并划分为多种场景类别，基于场景类别的语音素材，从而训练出该场景模式下的语音模型，具有用户自定义训练，多声音输出等特点。同时地，该语音合成方法还包括自学习建模过程，能够应对当前场景，具有声音输出自然贴切等特点。

一种声调评估方法-201610757767.8
发明人：张劲松;林举;解焱陆 -专利权人：北京语言大学
申请日： 2016-08-29 - 公布日： 2019-06-07 - 主分类号： G10L13/08
摘要：本发明公开了一种声调评估方法，包括：分别建立基于帧级别特征的声调模型和基于音段级别特征的声调模型；根据所述基于帧级别特征的声调模型获取待识别语音的平均帧级别后验概率和对数后验比；根据基于音段级别特征的声调模型获取所述待识别语音的音段层级对数后验概率；根据所述平均帧级别后验概率、所述对数后验比以及所述音段层级对数后验概率对所述待识别语音进行声调评估。根据本发明的声调评估方法，可以提高声调评估的鲁棒性。

一种模拟发声方法、装置、电子设备及存储介质-201910037235.0
发明人：谷晓佳 -专利权人：谷晓佳
申请日： 2019-01-15 - 公布日： 2019-05-17 - 主分类号： G10L13/08
摘要：本发明实施例公开了一种模拟发声的方法、装置、电子设备及存储介质，属于语言识别、语音合成技术，模拟发声方法包括：获取外部输入的信息，并进行信息类型识别；在识别到所述外部输入的信息为音源的情形下，获取并保存所述音源对应的地区语音；在识别到所述外部输入的信息为声音属性的情形下，获取并保存所述声音属性对应的声音元素；在识别到所述外部输入的信息为文本的情形下，识别文本中的文字，根据所述地区语音和所述声音元素对所述文字进行模拟发声。本方法能有针对性的服务用户，使得模拟发声的语言更为丰富、多元化，用户在打字过程中，可以学习不认识文字的读音，以及对于文字读音错误的纠正。进而提高人们学习文字的效率。

一种语音合成方法和系统-201910153925.2
发明人：徐波 -专利权人：广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司
申请日： 2019-03-01 - 公布日： 2019-05-17 - 主分类号： G10L13/08
摘要：本发明公开了一种语音合成方法，包括：将待处理的多语言文本转化为对应的混合音素集，并利用one‑hot编码映射得到音素混合序列；通过编码器将所述音素混合序列生成文本特征序列；通过解码器将所述文本特征序列生成预测声学频谱特征；将所述预测声学频谱特征合成语音波形。本发明实施例还公开了一种语音合成系统。采用本发明实施例，能够合成多种语言的语音，减少合成语音的误差，节省资源。

语音合成方法、装置、系统及存储介质-201811648146.1
发明人：杨杰 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-12-29 - 公布日： 2019-04-12 - 主分类号： G10L13/08
摘要：本发明提供一种语音合成方法、装置、系统及存储介质，该方法，包括：确定当前场景信息；获取与当前场景信息相符合的所有候选发音人；根据预设的规则，对候选发音人进行排序，得到候选发音人列表；根据候选发音人列表，确定目标发音人；按照目标发音人的声音，将文本信息转换为目标语音。从而实现根据接收到的文本和场景属性，自动选择与场景相符合的发音人，使得合成语音可以根据不同的场景，变换最合适的发音人，使得最终合成的语音更加真实，提升了语音合成效果，用户体验佳。

语音合成数据库停顿信息自动标注方法及系统-201610091554.6
发明人：刘青松;许东星;王鸣;黄盼 -专利权人：云知声（上海）智能科技有限公司
申请日： 2016-02-19 - 公布日： 2019-04-09 - 主分类号： G10L13/08
摘要：本发明涉及一种语音合成数据库停顿信息自动标注系统及方法，该方法包括：获取语音合成数据库中待标注的语音数据；将所述语音数据转化为语音特征帧序列并判断所述语音特征帧序列中的停顿信息，形成停顿信息的预测位置；将所述语音数据转化为文本数据；利用自动切分对齐方法计算所述语音数据和所述文本数据在时间轴上的映射关系；基于所述映射关系将所述停顿信息插入到所述文本数据中以形成标注文本信息；以及利用自动切分对齐方法计算所述语音数据和所述标注文本信息在时间轴上的映射关系。本发明实现了自动标注数据中语音数据的停顿信息，节省了靠人工听来标注停顿的成本和时间，周期短，准确率高，还具有良好的经济效益。

对话控制装置和方法-201780049114.7
发明人：岩濑广;斋藤真里;河野真一 -专利权人：索尼公司
申请日： 2017-08-03 - 公布日： 2019-04-02 - 主分类号： G10L13/08
摘要：本发明涉及可以执行更加适当的对话控制的对话控制装置和方法。该对话控制装置设置有对话进度控制单元，该对话进度控制单元基于由理解行为请求位置划分的话语文本，在一个或多个理解行为请求位置处诱导用户的理解行为，并且基于话语文本和对理解行为的检测结果来控制随后的话语。本发明可以被应用于声音对话系统。

文本处理方法、装置、电子设备及存储介质-201811413110.5
发明人：李永强;张冉;张征 -专利权人：北京羽扇智信息科技有限公司
申请日： 2018-11-23 - 公布日： 2019-03-29 - 主分类号： G10L13/08
摘要：本发明实施例公开了一种文本处理方法、装置、电子设备及存储介质。该方法包括：识别输入文本中包括的至少一组英文字符串；如果确定英文字符串中包括不属于英文单词的目标字符串，则获取与目标字符串中每个英文字母对应的替换字符对目标字符串进行替换处理，替换字符不属于中文字；对替换处理后的输入文本进行文本分割，得到至少一个文本分词；根据中英文分词与中英文发音之间的映射关系，以及替换字符与中文音素发音之间的映射关系，获取输入文本中的各文本分词的发音。本发明实施例提供的技术方案，解决了现有技术中处理中文中夹杂着由字母组成的特殊名词的句子发音不协调的问题，增加了语音的自然度。

基于基音同步频谱参数的语音识别系统和方法-201510114134.0
发明人：陈成钧 -专利权人：纽约市哥伦比亚大学理事会
申请日： 2015-03-16 - 公布日： 2019-03-29 - 主分类号： G10L13/08
摘要：本发明定义了一种基于基音同步的语音识别系统和方法。语音信号首先经过一个确定基音周期标志的程序，来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个处理单元，以对整个的语音信号产生出一组完整的分割点。根据分割点，语音信号被分割成与基音同步的而且互不重叠的帧。一个程序把每一帧的两个端点的数值做成等值。使用傅立叶分析，每个帧中的语音信号被转换为基音同步振幅频谱，然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色的单位矢量，称为音色矢量。这些音色矢量然后与数据库中的音色矢量相比，找到最可能的音素序列。然后可能的音素序列被送到语言解码器，找出最可能的文本。

用于生成音频的方法及装置-201910001986.7
发明人：杨杰 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2019-01-02 - 公布日： 2019-03-19 - 主分类号： G10L13/08
摘要：本申请实施例公开了用于生成音频的方法及装置。该方法的一具体实施方式包括：获取待处理文字信息的信息类型，上述信息类型用于表征上述待处理文字信息的内容分类；查询与上述信息类型对应的至少一条初始音频信息，上述初始音频信息用于将属于上述信息类型的文字信息转换为音频；从上述至少一条初始音频信息中确定出目标音频信息；通过上述目标音频信息对应的音频源生成上述待处理文字信息的音频。该实施方式提高了待处理文字信息和音频的匹配度。

一种页面内容朗读方法和装置-201310104807.5
发明人：张凯;胡博;唐廷勇;刘人方;王智培;周睿奕;王曦;谢郑凯;贺柏森;黄英;李未;冯诚;杨惠姣;刘玉磊 -专利权人：腾讯科技（深圳）有限公司
申请日： 2013-03-28 - 公布日： 2019-03-01 - 主分类号： G10L13/08
摘要：本发明公开了一种页面内容朗读方法和装置：获取用户请求浏览的页面内容，并确定页面内容的格式是否符合预定要求；如果是，则将页面内容展示给用户，并在当接收到用户的朗读请求时，将页面内容处理成适合朗读的形式，并将处理后的页面内容朗读出来；如果否，则在将页面内容转换为符合预定要求的格式后，展示给用户，并在当接收到用户的朗读请求时，将页面内容处理成适合朗读的形式，并将处理后的页面内容朗读出来。本发明所述方案具有广泛适用性，并能够降低实现成本。

一种文本转语音的方法、装置、电子设备和存储介质-201811408955.5
发明人：张征;张冉 -专利权人：北京羽扇智信息科技有限公司
申请日： 2018-11-23 - 公布日： 2019-02-12 - 主分类号： G10L13/08
摘要：本发明实施例公开了一种文本转语音的方法、装置、电子设备和存储介质，文本转语音的方法包括：获取与待处理文本相匹配的预设文本正规化模板；根据相匹配的所述预设文本正规化模板对所述待处理文本进行文本正规化处理，得到正规化文本；根据与所述预设文本正规化模板相对应的预分词模板，在所述正规化文本中添加预分词信息；根据所述预分词信息和分词模型对所述正规化文本进行分词，得到分词文本；将所述分词文本转换为语音信息。本发明实施例的技术方案，提高了分词的准确率，保证合成的语音的准确性。

构建语音特征库的方法、语音合成方法、装置及设备-201510375429.3
发明人：吕文玉;王道龙;刘孟 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-06-30 - 公布日： 2019-02-12 - 主分类号： G10L13/08
摘要：本发明提供了一种构建语音特征库的方法、语音合成方法、装置及设备。该语音合成方法所使用的语音特征库中保存有每条个性化的文本信息对应的至少一个语境和与该条个性化的文本信息相同语义的至少一条文本信息。在进行语音合成时，即使提供的文本信息并非所需的个性化语音对应的个性化文本信息，也可以在语音特征库中首先查找到与需要进行语音合成的文本信息语义相同的个性化的文本信息，进而实现个性化的语音合成，从而使得个性化语音的使用不依赖于人的生老病死。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语音合成技术的多功能阅读器有效

专利文献下载