[发明专利]一种角色姓名提取方法及系统在审
| 申请号: | 201910815197.7 | 申请日: | 2019-08-30 |
| 公开(公告)号: | CN110516255A | 公开(公告)日: | 2019-11-29 |
| 发明(设计)人: | 涂斌;蔡剑文;欧阳育军;叶键晖 | 申请(专利权)人: | 广州华多网络科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 古利兰<国际申请>=<国际公布>=<进入 |
| 地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语句 文本信息 语言逻辑 词信息 角色 排除条件 语义识别 预设 数据库 筛选 提取效率 姓名提取 准确率 分句 | ||
1.一种角色姓名提取方法,其特征在于,所述方法包括:
获取待提取文本信息;
对所述待提取文本信息进行分句处理,得到多条待提取语句;
针对每一条待提取语句,利用预设的语义识别数据库,确定所述待提取语句对应的语言逻辑,所述语义识别数据库包括预先设定的语言逻辑和排除条件,所述语言逻辑由句法结构构成,所述排除条件用于指示非角色姓名的词信息;
根据每一所述待提取语句对应的语言逻辑,确定每一所述待提取语句的词信息;
利用所述排除条件对每一所述待提取语句中的词信息进行筛选,提取所述待提取文本信息中用于指示角色姓名的词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待提取文本信息进行分句处理,得到多条待提取语句,包括:
获取所述待提取文本信息中的标点符号分布信息;
利用所述标点符号分布信息,对所述待提取文本信息进行分句处理,得到多条待提取语句。
3.根据权利要求1所述的方法,其特征在于,所述利用预设的语义识别数据库,确定所述待提取语句对应的语言逻辑,包括:
利用预设的语义识别数据库中的语言逻辑,分析所述待提取语句句法结构;
从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑,确定所述待提取语句对应的语言逻辑。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设时间,将所述语义识别数据库中的所有语言逻辑进行交叉类比,更新所述语义识别数据库中的语言逻辑。
5.根据权利要求1所述的方法,其特征在于,所述提取所述待提取文本信息中用于指示角色姓名的词之后,还包括:
对所述所有角色姓名进行去重复处理。
6.一种角色姓名提取系统,其特征在于,所述系统包括:
获取单元,用于获取待提取文本信息;
分句单元,用于对所述待提取文本信息进行分句处理,得到多条待提取语句;
第一确定单元,用于针对每一条待提取语句,利用预设的语义识别数据库,确定所述待提取语句对应的语言逻辑,所述语义识别数据库包括预先设定的语言逻辑和排除条件构成,所述语言逻辑由句法结构构成,所述排除条件用于指示非角色姓名的词信息;
提取单元,用于根据每一所述待提取语句对应的语言逻辑,确定每一所述待提取语句的词信息;
第二确定单元,用于利用所述排除条件对每一所述待提取语句中的词信息进行筛选,提取所述待提取文本信息中用于指示角色姓名的词。
7.根据权利要求6所述的系统,其特征在于,所述分句单元具体用于:获取所述待提取文本信息中的标点符号分布信息,以及利用所述标点符号分布信息,对所述待提取文本信息进行分句处理,得到多条待提取语句。
8.根据权利要求6所述的系统,其特征在于,所述第一确定单元具体用于:利用预设的语义识别数据库中的语言逻辑,分析所述待提取语句,从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑,确定所述待提取语句对应的语言逻辑。
9.一种电子设备,其特征在于,所述电子设备用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一所述的角色姓名提取方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的角色姓名提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815197.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及电子设备
- 下一篇:一种中文命名实体提取方法及其系统





