[发明专利]语音处理方法、装置、计算机设备和存储介质在审

专利信息
申请号: 202211150068.9 申请日: 2022-09-21
公开(公告)号: CN115512683A 公开(公告)日: 2022-12-23
发明(设计)人: 刘巍巍;甘颖新;董晗;石丽雅;王欣;李梦仰;祁正伟;姜卫军;刘蔚;窦嵩玉;梁春晓;雷茵;李煜;辛艳;周敏;胡亚军;赵鹏;刘建中 申请(专利权)人: 中国人民解放军61623部队
主分类号: G10L13/02 分类号: G10L13/02;G10L13/033;G10L15/00
代理公司: 北京华进京联知识产权代理有限公司 11606 代理人: 吴迪
地址: 100089 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音和干扰语音进行音频特征提取,得到原始语音的音频特征和干扰语音的音频特征;干扰语音是根据预设的语音频率条件确定出的;根据原始语音的音频特征,对干扰语音的音频特征进行音素堆叠处理,得到对抗语音;对对抗语音进行功率谱密度处理,得到处理后的目标对抗语音;将原始语音和目标对抗语音进行音量调整,进行原始语音和目标对抗语音进行音道拼接,得到对抗欺骗语音。采用本方法,能够避免对抗欺骗语音受到环境影响产生频率变化,并且能够解决传输方式具有局限性的问题,提高对抗欺骗语音实用性。
搜索关键词: 语音 处理 方法 装置 计算机 设备 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军61623部队,未经中国人民解放军61623部队许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202211150068.9/,转载请声明来源钻瓜专利网。

同类专利
  • 音频处理方法、装置、设备及计算机可读存储介质-202310834406.9
  • 章勤杰 - 腾讯科技(深圳)有限公司
  • 2023-07-07 - 2023-10-27 - G10L13/02
  • 本申请公开了一种音频处理方法、装置、设备及计算机可读存储介质,属于计算机技术领域。方法包括:获取多个音频的第一音频数据,多个第一音频数据中的至少两个第一音频数据的音频参数不同;根据标准音频参数,对所述各个音频的第一音频数据进行处理,得到所述各个音频的第二音频数据,所述第二音频数据的音频参数为所述标准音频参数;根据所述各个音频的第二音频数据,获取多个合并后的音频帧数据;对所述合并后的音频帧数据进行拼接,得到合并后的音频数据,根据所述合并后的音频数据,获取合并后的音频,所述合并后的音频包括所述多个音频。该方法能够提高音频处理的灵活性和普适性。
  • 语音数据处理方法、装置、设备及计算机可读存储介质-202210412813.6
  • 陈崇明 - TCL科技集团股份有限公司
  • 2022-04-19 - 2023-10-27 - G10L13/02
  • 本申请公开了一种语音数据处理方法、装置、设备及计算机可读存储介质,方法包括:获取原始语音数据以及其对应的合成语音数据;确定原始语音数据对应的至少一个语音调整参数;根据各语音调整参数对合成语音数据进行调整,得到各语音调整参数对应的调整语音数据;根据各调整语音数据的语音质量信息,从各语音调整参数中选择目标语音调整参数。采用本申请提供的语音数据处理方法,可以有效提高合成语音的语音质量。
  • 一种语音合成方法、装置、电子设备和存储介质-202311085447.9
  • 丛士钧;王桂彬;贾铭 - 北京百度网讯科技有限公司
  • 2023-08-25 - 2023-10-27 - G10L13/02
  • 本公开提供了一种语音合成方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习、语音处理技术领域。语音合成方法应用于配置有人工智能芯片的云端设备;云端设备预先部署多个发言人模型;人工智能芯片包括多个独立处理语音合成请求的计算核心;方法包括:接收用户发送的语音合成请求数据,并添加到缓存队列中;其中,语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型;并发的从缓存队列中获取目标文本片段,并将目标文本片段分别发送到不同的计算核心,使得计算核心基于目标发言人模型将目标文本片段转换成对应的语音数据。本公开方案可以提高多发言人模型场景下的语音合成效率。
  • 语音合成模型的训练方法、装置、设备、介质及程序产品-202211376239.X
  • 阳珊;苏丹 - 腾讯科技(深圳)有限公司
  • 2022-11-04 - 2023-10-27 - G10L13/02
  • 本申请提供了一种语音合成模型的训练方法、语音合成方法、装置、设备、存储介质及计算机程序产品;方法包括:获取文本样本以及所述文本样本对应的标准语音;通过所述语音合成模型对所述文本样本进行语音码流预测,得到所述文本样本对应的预测语音码流;通过所述语音合成模型,对所述预测语音码流进行解码,得到所述文本样本对应的预测合成语音;基于所述预测合成语音和所述标准语音间的差异,更新所述语音合成模型的模型参数,以对所述语音合成模型进行训练;通过本申请,能够提高语音合成模型的训练效率。
  • 定制声音的合成方法、装置、电子设备及存储介质-202310961831.4
  • 王茜;冯小琴;陈云琳 - 上海墨百意信息科技有限公司
  • 2023-08-01 - 2023-10-24 - G10L13/02
  • 本公开提供了一种定制声音的合成方法,包括:对历史音频数据进行分析,构建关于声音维度的定制提示数据库,其中定制提示数据库包括多个定制标签及各个定制标签所对应的多种自然语言标注;调用标签生成模型对定制指令进行分析,以在定制提示数据库中确定关于定制指令的多个目标标签及相应目标标注;以及基于各个目标标签及相应目标标注,将目标文本转换为响应定制指令的定制声音。本公开还提供一种定制声音的合成装置、电子设备及存储介质。
  • 基于离散化自监督表征增强的非自回归建模方法-202310933874.1
  • 高盛祥;冯子健;余正涛 - 昆明理工大学
  • 2023-07-27 - 2023-10-24 - G10L13/02
  • 本发明涉及基于离散化自监督表征增强的非自回归建模方法,属于自然语言处理技术领域。本发明首先结合老挝语的语言语音特点,在老挝语音素粒度上标注时长信息,其次使用非自回归架构建模声学模型,避免数据稀缺情况下自回归模型注意力机制泛化能力差的问题。通过自监督学习的预训练语音模型来提取语音内容和声调信息的离散化表征,融入到声学模型中增强模型的语音生成能力,增强合成音频的流畅性和自然性。本发明提出的基于离散化自监督表征增强的非自回归建模方法,能更好的在声调、音素时长、音高等细粒度层面刻画老挝语的语音特性。
  • 语音合成方法、装置及服务器-202010437019.8
  • 林诗伦;蒙力;苏文超;唐宗尧;李新辉;卢鲤 - 腾讯科技(深圳)有限公司
  • 2020-05-21 - 2023-10-24 - G10L13/02
  • 本申请公开了一种语音合成方法、装置及服务器,涉及人工智能技术领域。其中,该方法包括:获得针对语音合成模型的性能要求信息;根据性能要求信息,分别确定与性能要求信息对应的目标编码器、目标注意力组件和目标解码器;获得包括目标编码器、目标注意力组件和目标解码器的目标语音合成模型;通过目标语音合成模型将接收的字符信息合成为语音信息。如此,可以根据性能要求的不同来获得对应的语音合成模型,从而基于该语音合成模型提供符合该性能要求的语音合成服务。
  • 语音处理方法及装置、计算机可读的存储介质、电子装置-202010682292.7
  • 陈帅 - 青岛海尔科技有限公司
  • 2020-07-15 - 2023-10-24 - G10L13/02
  • 本发明提供了一种语音处理方法及装置、计算机可读的存储介质、电子装置,其中,语音处理方法包括:获取第一终端发送的第一语音信息,并将所述第一语音信息与预设的一个或多个目标感情信息叠加以生成一个或多个第二语音信息;发送所述第一语音信息或所述第二语音信息至第二终端。通过本发明实施例,可以解决相关技术中,用户发送的语音无法表达用户期望的情感进而导致用户体验不佳的问题,以令用户发送的语音可真实表达用户期望的情感,进而改善了语音功能实现的用户体验。
  • 虚拟语音的生成方法-202310916039.7
  • 李昌绿;詹楚伟;朱正辉 - 广东保伦电子股份有限公司
  • 2023-07-24 - 2023-10-20 - G10L13/02
  • 本发明涉及语音处理技术领域,尤其涉及一种虚拟语音的生成方法,包括:步骤S1、生成虚拟语音,检测虚拟语音的声波形状,中控模块根据的声波形状计算相似度;步骤S2、评级,判定所述虚拟语音的生成是否合格;步骤S3、所述中控模块在判定所述虚拟语音的生成不符合标准时判定是否更新测试语句,或,将降噪处理过程中反相位声波的频率和幅度调节至对应值;步骤S4、所述中控模块在判定所述虚拟语音的生成符合标准时二次判定所述虚拟语音的生成是否合格,本发明避免了生成的虚拟语音漏词的现象,提高了生成的虚拟语音的质量,在保证虚拟语音的质量的同时,提高了虚拟语音生成的效率。
  • 模型训练方法、声学模型、语音合成系统和电子设备-202210957709.5
  • 龚雪飞 - 荣耀终端有限公司
  • 2022-08-10 - 2023-10-20 - G10L13/02
  • 本申请涉及语音处理技术领域,公开了一种模型训练方法、声学模型、语音合成系统和电子设备;方法包括:获取第一模型,将输入数据输入第一模型进行处理,获取输入数据对应的第一模型输出结果;获取输入数据对应的预设标准输出结果;基于第一模型输出结果和预设标准输出结果对第一模型进行优化,获取第二模型,第二模型包括第一后处理网络;确定第一后处理网络中各通道的重要性;基于各通道的重要性对第一后处理网络中的部分通道进行裁剪,以获取第二后处理网络,并且基于第二后处理网络获得第三模型;在确定第三模型满足模型要求的情况下,将第三模型作为最终训练模型。基于上述方案,能够在保证模型性能的同时有效减小模型的占用内存。
  • 一种语音合成方法及装置-202110941865.8
  • 张句;贡诚;王宇光;关昊天 - 慧言科技(天津)有限公司
  • 2021-08-17 - 2023-10-20 - G10L13/02
  • 本申请提供一种语音合成方法及装置,涉及音频技术领域,能够提升语音合成的实时率,并且能够提升所合成的语音的音质。该方法包括:基于第一训练样本集和教师声学模型,对预设学生声学模型进行训练,得到目标学生声学模型,该第一训练样本集包括多个文本和该多个文本对应的声学特征,该预设学生声学模型为轻量级的声学模型;并且采用目标学生声学模型对目标文本进行特征提取,得到目标文本的声学特征;以及通过声码器对目标文本的声学特征进行处理,得到目标文本对应的语音。其中,教师声学模型、预设学生声学模型以及目标学生声学模型均用于提取文本的声学特征。
  • 一种低资源下利用迁移学习进行情感语音合成的方法-202010681019.2
  • 王龙标;徐杰;党建武;贡诚 - 天津大学
  • 2020-07-15 - 2023-10-17 - G10L13/02
  • 本发明公开了一种低资源下利用迁移学习进行情感语音合成的方法,包括以下步骤:步骤一,情感向量预训练:利用EMOV‑DB数据集对于一个语音情感识别模型进行训练,这一语音情感识别模型是由风格化端到端语音合成的基本方法GST+Tacotron2模型中风格向量提取部分进一步处理得到的;步骤二,语音合成模型预训练:对于基本的Tacotron2模型,利用LJSpeech‑1.1的数据集进行预训练;步骤三,进行迁移学习训练:对于基本的Tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果,并进行迁移学习训练。本发明采用预训练和迁移学习的方法,能够充分利用单个说话人少量的情感数据,在一个统一的情感语音合成模型的基础上,合成出质量达到一定水平的、情感倾向明显的合成语音。
  • 语音合成方法、装置及计算机可读存储介质-202310998035.8
  • 王金超 - 芜湖云从科技有限公司
  • 2023-08-07 - 2023-10-13 - G10L13/02
  • 本发明涉及语音识别技术领域,具体提供一种语音合成方法、装置及计算机可读存储介质,旨在解决现有的语音合成模型在生成语音识别特征时无法并行运算,合成速度较慢,以及无法控制改变生成音频的倍速和音调高低等问题。为此目的,本发明的语音合成方法包括:将获取的待合成文本作为输入,经过预设声学模型得到语音识别特征;所述预设声学模型采用基于生成对抗网络的第一鉴别器训练得到;将所述语音识别特征作为输入,经过预设声码器模型得到所述待合成文本对应的音频;所述预设声码器模型采用基于生成对抗网络的第二鉴别器训练得到。本发明通过设置第一鉴别器使用对抗训练生成语音识别特征,可以有效提升模型的合成效率。
  • 基于因子图的语音合成方法、装置及系统-202311131998.4
  • 张青辉;王英 - 世优(北京)科技有限公司
  • 2023-09-04 - 2023-10-10 - G10L13/02
  • 本申请提供了一种基于因子图的语音合成方法、装置及系统,其中,该方法包括:获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。本申请解决了相关技术中合成语音与待模仿对象的声音的相似度不够高的技术问题。
  • 重读可控语音合成方法、装置、电子设备及存储介质-202310954513.5
  • 史文婧;江明奇;陈云琳 - 上海墨百意信息科技有限公司
  • 2023-07-31 - 2023-10-10 - G10L13/02
  • 本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。本公开实施例的重读可控语音合成方法包括:获取用户提供的第一文本;通过语音合成模型中的文本编码器获取第一文本的文本编码状态;获取重读特征,重读特征包括第一重读特征和/或第二重读特征,第一重读特征由用户设置,第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到;至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。
  • 一种多语言文本合成语音方法、装置、设备及存储介质-201980003170.6
  • 黄东延;盛乐园;熊友军 - 深圳市优必选科技股份有限公司
  • 2019-12-23 - 2023-10-10 - G10L13/02
  • 本发明公开了一种多语言文本的语音合成方法、装置、设备及存储介质。所述方法包括:获取待合成多语言文本;将所述待合成多语言文本分别输入至少两个编码规则不同的编码器中进行编码,得到与编码规则对应的文本编码;将所有所述编码规则对应的文本编码转换为联合文本编码;将所述联合文本编码、标准频谱特征数据输入解码器进行预测解码,得到预测频谱特征;将所述预测频谱特征输入声码器进行合成处理,得到与所述待合成多语言文本对应的目标语音。本发明有利于多语言文本的处理,降低了部署难度,降低了部署成本。
  • 歌唱合成数据的标注方法、装置、计算机设备及存储介质-202310552056.7
  • 宋世奇;朱清琳;曹荣;田煦春;涂欣宇;马泽君 - 北京有竹居网络技术有限公司
  • 2023-05-16 - 2023-10-03 - G10L13/02
  • 本公开涉及计算机处理技术领域,公开了歌唱合成数据的标注方法、装置、计算机设备及存储介质,本公开提供的方法包括,获取样本音频以及样本音频的歌词文本内容,其中语音内容是通过预设插件预标注得到的;基于样本音频的时间信息,在同一界面显示语音内容以及样本音频;基于界面的显示信息,获取包括样本音频的语音内容、语音边界以及音乐信息的标注文件,语音边界是通过预设插件标注得到的,音乐信息是通过数字音频工作站得到的。利用样本音频的时间信息将样本音频与语音内容进行对齐,同时结合时间信息以及预设插件,在同一界面上显示语音内容以及样本音频,去除了重复标注歌词的环节,提高了歌唱合成数据的标注效率。
  • 语音合成方法、装置、电子设备及存储介质-202310654875.2
  • 郭璇;缪陈峰;马骏;王少军 - 平安科技(深圳)有限公司
  • 2023-06-02 - 2023-10-03 - G10L13/02
  • 本申请涉及金融科技领域,具体涉及一种语音合成方法、装置、电子设备及存储介质,将目标特征数据和第一频谱编码数据输入至语音合成模型中,输出目标对象的目标梅尔谱;将目标梅尔谱输入至预先训练好的声码器模型中,输出第二语音数据,其中,声码器模型包括多个维度不同的Flow模块,每个Flow模块包括卷积神经网络层,多个Flow模块的维度沿数据处理方向依次减小;通过上述方式,扩大了声码器模型中各Flow模块的维度,提高了声码器模型的学习能力,提高了目标梅尔谱转换所得语音数据的质量,在利用输出的第二语音数据与用户进行业务沟通时,能够提高用户体验,提高了金融行业中与用户之间的沟通效率。
  • 音频生成方法、装置、设备及存储介质-202310876799.X
  • 赵雅男;李良斌 - 北京声智科技有限公司
  • 2023-07-17 - 2023-09-29 - G10L13/02
  • 本申请提供了一种音频生成方法、装置、设备及存储介质,所述方法包括:响应于触发指令,获取所述触发指令所包括的情感关键字和播放内容信息,所述情感关键字用于指示基于所述播放内容信息进行回复时的情感表现;基于所述情感关键字以及所述播放内容信息指示的回复文本,获取目标乐曲;对所述回复文本以及所述目标乐曲的节拍特征参数进行语音合成,得到目标音频。本申请的技术方案,通过触发指令包括的情感关键字,来确定采用哪种节奏特点的乐曲来进行语音合成,从而让语音回复具有和该情感关键字相应的情感表现,使得回复文本的节奏符合用户的情感需要,增加了语音交互的灵活性,大大提高了用户对语音交互的满意度。
  • 一种信息处理方法、装置和电子设备-202310946955.5
  • 刘治宇 - 北京烽火万家科技有限公司
  • 2023-07-29 - 2023-09-29 - G10L13/02
  • 本申请涉及一种信息处理方法、装置和电子设备,应用于信息处理领域,该方法包括:当第一用户发送需要将待处理文本信息至第二用户时,根据第二用户的信息确定符合第二用户的目标语音转换要求,然后从第一用户的多个语音合成模型中确定符合目标语音转换要求的目标语音合成模型;然后根据目标语音合成模型对待处理文本信息进行语音模拟得到目标语音,得到的目标语音更真实,发送至第二用户对应的终端设备,使得第二用户能够通过目标语音快速知道信息内容以及信息发送者的身份,能够提高文本内容转语音的效果,改善用户体验度。
  • 一种可听噪声声源的模拟合成方法-202310896826.X
  • 梁兆杰;李艳;田杰 - 深圳供电局有限公司
  • 2023-07-20 - 2023-09-29 - G10L13/02
  • 本发明提供一种可听噪声声源的模拟合成方法。所述方法包括:测试获得待模拟可听噪声声源本体所产生的声波的原始声强;计算得到所述待模拟可听噪声声源产生的声波经地面反射后在一模拟位置处的反射声强;计算得到至少一个邻近声源产生的声波在所述模拟位置处的合成声强;计算得到所述待模拟可听噪声声源产生的声波经至少一个模拟障碍物反射后在所述模拟位置处的合成反射声强;将所得到的声强叠加,获得待模拟可听噪声声源于所述模拟位置被模拟合成后的声强。本发明于模拟位置处模拟合成的声源更贴近实际情况,以便于开展各种噪声治理研究工作。
  • 基于小样本学习的语音合成方法、装置及存储介质-202311084629.4
  • 请求不公布姓名 - 摩尔线程智能科技(北京)有限责任公司
  • 2023-08-25 - 2023-09-29 - G10L13/02
  • 本申请涉及语音合成技术领域,尤其涉及一种基于小样本学习的语音合成方法、装置及存储介质。所述方法包括:获取目标对象的目标语音数据;根据目标语音数据,通过预先训练得到的声纹特征提取器提取目标声纹特征矢量,目标声纹特征矢量指示目标对象的音色;根据目标语音数据和目标声纹特征矢量进行小样本学习,得到端到端语音合成模型,目标声纹特征矢量用于调整端到端语音合成模型中的归一化层的参数,端到端语音合成模型用于进行语音合成。本申请实施例通过将端到端语音合成模型与声纹特征提取器相结合的方法,使得在小样本条件下能够合成自然的语音,保证合成的语音音色与目标对象的音色更加相似,提高了个性化语音合成的效率和效果。
  • 语音合成方法、装置、电子设备和存储介质-202011360413.2
  • 高占杰;陈昌滨;刘龙飞 - 北京百度网讯科技有限公司
  • 2020-11-27 - 2023-09-26 - G10L13/02
  • 本申请公开了语音合成方法、装置、电子设备和存储介质,涉及深度学习、语音技术等人工智能技术领域。具体实现方案为:在对待合成文本进行语音合成的过程中,结合语音合成请求中的用户标识,获取与该用户标识对应的音色特征,并结合根据用户标识,获取待合成文本的至少一组候选韵律特征,从至少一组候选韵律特征中选择出一组作为待合成文本的韵律特征;根据音色特征、待合成文本和韵律特征进行语音合成,以得到待合成文本对应的合成音频。由此,结合与用户标识对应的音色特征、待合成文本和韵律特征合成待合成文本的合成音频,从而使得所得到的合成音频具有与用户标识对应的用户声音特点,使得合成的音频更加真实,自然,提升了语音合成效果。
  • 语音转换的方法、装置、处理设备及存储介质-202210986747.3
  • 陈莹 - 中移(苏州)软件技术有限公司;中国移动通信集团有限公司
  • 2022-08-17 - 2023-09-22 - G10L13/02
  • 本公开实施例公开了一种语音转换的方法、装置、处理设备及存储介质。其中,所述方法包括:获取源语音的第一内容特征;其中,第一内容特征包括源语音承载的内容的特征;对第一内容特征执行采样,获得第二内容特征;将第二内容特征输入到信息过滤模型中,获得第三内容特征;其中,信息过滤模型用于对第二内容特征中的声学特征进行过滤处理;将第三内容特征及预定语音的声学特征输入到解码模型中,合成音频频谱;其中,解码模型至少用于对第三内容特征及预定语音的声学特征进行重组;基于音频频谱,生成目标语音。本公开实施例中通过信息过滤模型能够有效过滤掉源语音的声学特征,确保基于所述音频频谱生成的目标语音与预测语音的相似度高。
  • 基于计算机程序实现的语音合成方法和系统-202210237919.7
  • 雷文辉 - 保时捷(上海)数字科技有限公司
  • 2022-03-11 - 2023-09-22 - G10L13/02
  • 一种基于计算机程序实现的语音合成方法,包括:获取用于语音合成的前端模型和后端模型;获取通用声纹模型以生成基准语音合成引擎;基于所收集的至少一个感兴趣说话者的声学特征数据对所述通用声纹模型进行模型自适应调整以生成关于至少一个感兴趣说话者的相应的定制声纹模型;生成关于所述至少一个感兴趣说话者的相应的定制语音合成引擎;使用所述至少一个感兴趣说话者中被用户选择的一个感兴趣说话者的相应的定制语音合成引擎对待要读出的文本进行处理,以生成具有所述被用户选择的一个感兴趣说话者的声学特点的相对应的语音。根据本发明的方法、系统和车辆,能够生成面向用户和内容定制的语音合成引擎,为用户提供丰富的个性化体验。
  • 语音合成方法、电子设备及存储介质-202310831506.6
  • 岳振;马金燚;佘志强 - 咪咕数字传媒有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司
  • 2023-07-07 - 2023-09-19 - G10L13/02
  • 本申请提供一种语音合成方法、电子设备及存储介质,涉及语音技术领域,该方法包括:获取第一文本,所述第一文本中包括N个对话文本,每个对话文本对应一个角色的对话内容,N为大于1的整数;根据所述第一文本中各对话文本的目标信息,确定各对话文本的方位信息,所述目标信息包括各对话文本对应的角色在该对话文本的关联影视片段中的位置信息,或所述第一文本中与各对话文本关联的位置关键词;根据各对话文本的方位信息,确定各对话文本的待合成音频的声源位置,并根据所述各对话文本的待合成音频的声源位置,生成各对话文本的合成语音。本申请实施例可将对话文本转换成具有不同声源位置的对话语音,从而能够有效提高对话文本的语音播放效果。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top