[发明专利]文本处理及模型训练方法、装置、设备和存储介质在审

申请号：	202110947683.1	申请日：	2021-08-18
公开（公告）号：	CN113850291A	公开（公告）日：	2021-12-28
发明（设计）人：	李若铭;潘政林	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	田宏宾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本处理及模型训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及语音合成、深度学习、自然语言处理等人工智能领域。文本处理方法包括：检测文本中的角色；在所述文本中，提取所述角色的性别相关文本，所述性别相关文本为包含所述角色的性别信息的文本；对所述性别相关文本进行处理，以确定所述角色的性别。本公开可以确定文本中角色的性别。

技术领域

本公开涉及计算机技术领域，具体涉及语音合成、深度学习、自然语言处理等人工智能领域，尤其涉及一种文本处理及模型训练方法、装置、设备和存储介质。

背景技术

有声读物是传统书的一种衍生形式，它是随着声磁技术的发展而开发出的一种以磁化物为载体并带有播放功能的书，最为常见的有声读物是有声小说。

相关技术中，有声小说是采用同一发音人对所有角色的对话内容进行发音。

发明内容

本公开提供了一种文本处理及模型训练方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种文本处理方法，包括：检测文本中的角色；在所述文本中，提取所述角色对应的性别相关文本，所述性别相关文本为包含所述角色的性别信息的文本；对所述性别相关文本进行处理，以确定所述角色的性别。

根据本公开的另一方面，提供了一种性别预测模型的训练方法，所述性别预测模型用于确定文本的角色的性别，所述方法包括：获取训练样本，所述训练样本包括：训练文本中角色的性别相关文本，以及所述性别相关文本的标签信息，所述标签信息用于标识所述性别相关文本对应的性别；采用所述训练样本，训练性别预测模型。

根据本公开的另一方面，提供了一种文本处理装置，包括：检测模块，用于检测文本中的角色；提取模块，用于在所述文本中，提取所述角色的性别相关文本，所述性别相关文本为包含所述角色的性别信息的文本；确定模块，用于对所述性别相关文本进行处理，以确定所述角色的性别。

根据本公开的另一方面，提供了一种年龄预测模型的训练装置，所述性别预测模型用于确定文本的角色的性别，所述装置包括：获取模块，用于获取训练样本，所述训练样本包括：训练文本中角色的性别相关文本，以及所述性别相关文本的标签信息，所述标签信息用于标识所述性别相关文本对应的性别；训练模块，用于采用所述训练样本，训练年龄预测模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以确定文本中角色的性别。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；