[发明专利]基于语音合成技术的多功能阅读器有效
申请号: | 201310083450.7 | 申请日: | 2013-03-16 |
公开(公告)号: | CN104050962B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 李军;李启超;窦超强;袁文斌 | 申请(专利权)人: | 广东恒电信息科技股份有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G09B5/04;H04L29/06 |
代理公司: | 佛山东平知识产权事务所(普通合伙) 44307 | 代理人: | 詹仲国 |
地址: | 510630 广东省广州市天河区五山路246、2*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音合成技术的多功能阅读器,其特征在于,它包括接用户客户端的电子阅读器模块、语音合成服务器模块和内嵌有Linux系统的微处理器,电子阅读器模块与语音合成服务器模块连接,电子阅读器模块、语音合成服务器模块分别连接微处理器。本发明结构简单,使用操作方便,低耗能、节约成本。 | ||
搜索关键词: | 基于 语音 合成 技术 多功能 阅读器 | ||
【主权项】:
1.一种基于语音合成技术的多功能阅读器,其特征在于,它包括接用户客户端的电子阅读器模块、语音合成服务器模块和内嵌有Linux系统的微处理器,电子阅读器模块与语音合成服务器模块连接,电子阅读器模块、语音合成服务器模块分别连接微处理器,实现多种格式的文件朗读和选定文本朗读功能,语音合成服务器模块能够浏览和朗读txt、pdf和html格式的文件,语音合成服务器模块能自动合成普通话,粤语和英语;电子阅读器模块包括显示屏、通讯模块、UI模块、交互模块和信号处理模块,通讯模块负责和语音合成服务器模块建立连接,发送请求和接收语音数据;UI模块负责文件的显示、窗口部件的布局;交互模块执行用户的操作;信号处理模块设置信号处理函数,实现信号处理函数;语音合成服务器模块包括初始化模块、并发服务模块、处理模块、I/O模块和语音合成模块,初始化模块将服务器进程初始化为一个守护进程,然后创建一个Unix域套接字,从配置文件中读取协议地址初始化套接字,接着设置信号处理函数完成初始化;并发服务模块是在初始化完成后,服务器开始执行死循环,在循环体内调用accept函数进入睡眠状态,客户连接请求到达后, accept函数返回,主进程每个客户调用fork派生一个子进程为客户提供服务;处理模块是完成请求数据包的解析,根据不同的请求进行相应的处理,并把处理结果封装成数据包;I/O模块是负责从客户读取数据和向客户发送数据;UI模块使用多平台的C++图形用户界面应用程序框架Qt,Qt支持TTF、BDF、PFA/PFB和QPF这四种格式的字库;在阅读器中采用TTF格式字体;语音合成模块由文本分析、韵律处理和语音合成三部分组成,完成文本到语音的转换;这个过程的工作是将输入的文本按字或词分解为音素,并且对文本中的数字、货币单位、单词变形以及标点要特殊处理的符号进行分析,以及将音素生成数字音频然后用扬声器播放出来或者存为声音文件以后用多媒体软件播放;文本分析的主要任务有:对输入的文本进行预处理,使得文本规范化;具体的做法包括去掉一些多余的空格或者换行符,把标点符号转换成一些特殊的标记,包括将停顿时间相同的、声调变化一致的标点符号统一转换为某种特殊标记;2.分词,得到规范的文本后,将文本切成若干的字和词;使用查字典法实现分词,把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词;3.将分解后的文本转换为注音符号表示形式并添加控制符,对分词得到的字和词查找其对应的音标然后拼接起来,完成由字词到音标的转换过程;文本分析的结果作为韵律处理的输入;韵律处理主要是对声调、节奏进行处理,包括出现连续两个第三声时,就对其进行降调,使合成语音能正确表达语意;在最后的语音合成阶段,将韵律处理模块的输出作为语音合成模块的输入;语音合成模块对于每一个注音符号在语音库中查找对应的实例,然后将文本句子对应的所有注音符号的实例拼接起来,在拼接过程中根据控制符的语义对语音实例的音长、韵律特征和停顿时间进行调整,最后输出一个句子的完整的拼音数据流;实现语音合成,还需要完成几项准备工作:创建常用汉字Unicode码到音标的映射表;创建常用词组Unicode码到音标的映射表;创建中文声音库;声音库记录了普通话和粤语中全部音标的发音,由字和词为单位的wav格式文件组成;用户客户端与服务器通讯采用的是Unix域协议;所述电子阅读器模块采用QML实现用户界面,在QML嵌入JavaScript代码实现页面逻辑,语音合成通过Microsoft Speech SDK 5.1提供的语音接口实现;Microsoft Speech SDK提供关于语音处理的一套应用程序编程接口SAPI,SAPI提供了实现TTS程序的基本函数,为一个应用程序和语音引擎之间提供一个高级别的接口;SAPI 实现了所有必需的对各种语音引擎的实时的控制和管理低级别的细节,应用程序能通过IspVoice的对象组建模型接口控制文本语音转换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东恒电信息科技股份有限公司,未经广东恒电信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310083450.7/,转载请声明来源钻瓜专利网。