[发明专利]文本处理及模型训练方法、装置、设备和存储介质在审
申请号: | 202110947683.1 | 申请日: | 2021-08-18 |
公开(公告)号: | CN113850291A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 李若铭;潘政林 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种文本处理方法,包括:
检测文本中的角色;
在所述文本中,提取所述角色的性别相关文本,所述性别相关文本为包含所述角色的性别信息的文本;
对所述性别相关文本进行处理,以确定所述角色的性别。
2.根据权利要求1所述的方法,其中,所述性别相关文本包括:性别词文本和指代词文本,所述对所述性别相关文本进行处理,以确定所述角色的性别,包括:
采用性别模型,对所述性别词文本进行预测处理,以获得所述性别词文本对应的性别信息,并基于所述性别词文本对应的性别信息确定第一性别;
采用指代模型,对所述指代词文本进行预测处理,以获得所述指代词文本对应的性别信息,并基于所述指代词文本对应的性别信息确定第二性别;
若所述第一性别和所述第二性别相同,则确定所述角色的性别为所述相同的性别。
3.根据权利要求2所述的方法,其中,所述性别词文本为多条,所述性别词文本对应的性别信息包括不同性别的性别得分,所述基于所述性别词文本对应的性别信息确定第一性别,包括:
对应同一性别,将所述多条性别词文本对应的性别得分进行汇总,以获得同一性别的总得分;
将总得分最高的性别,作为所述第一性别。
4.根据权利要求2所述的方法,其中,所述指代词文本为多条,所述指代词文本对应的性别信息包括不同指代词的指代得分,所述基于所述指代词文本对应的性别信息确定第二性别,包括:
对应同一指代词,将所述多条指代词文本对应的指代得分进行汇总,以获得同一指代词的总得分;
将总得分最高的指代词对应的性别,作为所述第二性别。
5.根据权利要求2所述的方法,其中,所述性别模型包括:输入层、隐层、注意力层和分类层,所述采用性别模型,对所述性别词文本进行预测处理,以获得所述性别词文本对应的性别信息,包括:
采用所述输入层,将所述性别词文本转换为输入向量;
采用所述隐层,将所述输入向量转换为隐层向量;
采用所述注意力层,将所述隐层向量转换为编码向量,所述注意力层的参数包括注意力权重,所述角色出现位置对应的注意力权重大于非所述角色出现位置对应的注意力权重;
采用所述分类层,对所述编码向量进行分类处理,以获得所述性别词文本对应的性别信息。
6.根据权利要求5所述的方法,其中,所述分类层包括文本分类层和姓名分类层,所述采用所述分类层,对所述编码向量进行分类处理,以获得所述性别词文本对应的性别信息,包括:
采用所述文本分类层,对所述编码向量进行分类处理,以获得第一分类结果;
采用所述姓名分类层,对所述编码向量进行分类处理,以获得第二分类结果;
对所述第一分类结果和所述第二分类结果进行融合,以获得所述性别词文本对应的性别信息。
7.根据权利要求1-6任一项所述的方法,还包括:
获取对应所述角色的性别的语音;
采用所述语音,对所述角色的对话内容进行语音播放。
8.一种性别预测模型的训练方法,所述性别预测模型用于确定文本的角色的性别,所述方法包括:
获取训练样本,所述训练样本包括:训练文本中角色的性别相关文本,以及所述性别相关文本的标签信息,所述标签信息用于标识所述性别相关文本对应的性别;
采用所述训练样本,训练性别预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110947683.1/1.html,转载请声明来源钻瓜专利网。