[发明专利]文本中的人物挖掘方法、装置、电子设备及存储介质有效
申请号: | 202011162912.0 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112270173B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 白洁;王毅;潘政林 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 中的 人物 挖掘 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种文本中的人物挖掘方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习和自然语言处理技术领域。具体实现方案为:采用预先训练的人名识别模型,预测指定文本中的候选人物集合;对所述指定文本进行新词发现,获取新词列表;基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体为深度学习和自然语言处理技术领域,具体涉及一种文本中的人物挖掘方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
近年来,围绕AI出现了越来越多的应用。例如,基于AI所实现的朗读在市场上变得越来越受关注。理论上而言,基于AI的有声朗读可以用于朗读多角色有声小说,如果想要得到效果良好的朗读体验,需要能够识别出小说包含的主要人物都有哪些。一个需要面对的问题是如何能够让机器尽量自动且准确的挖掘到小说中的主要人物。因为只有知道了包含有哪些人物,才能进一步去分析这些人物的性别、年龄、性格特点、人物关系等信息,也才能为每个人物分配适合性格特点的朗读音色,让听小说的用户有身临其境的良好感觉。
发明内容
本申请提供了一种用于文本中的人物挖掘方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种文本中的人物挖掘方法,其中,所述方法包括:
采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
对所述指定文本进行新词发现,获取新词列表;
基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
根据本申请的另一方面,提供了一种文本中的人物挖掘装置,其中,所述装置包括:
预测模块,用于采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
获取模块,用于对所述指定文本进行新词发现,获取新词列表;
确定模块,用于基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
根据本申请的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本申请的再另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
根据本申请的技术,能够对指定文本中的人物进行快速、高效地挖掘,且能够充分保证挖掘的指定文本中的人物的召回率、全面性以及准确性,为后续进一步地进行人物分析提供了必要基础,能够有助于AI的多角色有声朗读的大规模运营。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011162912.0/2.html,转载请声明来源钻瓜专利网。