[发明专利]在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法有效
申请号: | 201210578662.8 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103065620A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 徐鹤林;江源;张磊;江涛;聂小林;胡国平;胡郁 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L25/78;G10L17/00;G10L15/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,涉及语音合成及个性化语音合成技术领域,该方法包括:在手机或网页上输入文字;将文字合成为具有特殊音色特征的个性化声音;用户将个性化的声音设为彩铃或手机铃音,其中在个性化合成系统中采用的远离类中心单元的聚类方法这一新算法。利用本发明,可以实现用户制作个性化彩铃或个性化手机铃音的需求。 | ||
搜索关键词: | 手机 网页 接收 用户 输入 文字 实时 成为 个性化 声音 方法 | ||
【主权项】:
一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,其特征在于:步骤1)、音库准备:从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据;步骤2)、音段切分:需要语音分析下的自动分句结果和语音/非语音判断;步骤3)、声纹识别:需要做目标发音人判断;步骤4)、语音识别:使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本;步骤5)、文本分析:直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测;步骤6)、系统搭建:结合音素置信度在统计建模和单元挑选阶段改进效果;步骤7)、人工调整:在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留系统进化能力;步骤8)、个性化声音转化:利用步骤1)至7)形成个性化声音合成系统,将文字合成为具有特殊音色特征的个性化声音;在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM‑based合成系统中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210578662.8/,转载请声明来源钻瓜专利网。
- 上一篇:多粘菌素衍生物及其用途
- 下一篇:一种用于风电轴承在制造过程中的密封结构