[发明专利]一种文本处理方法、装置及设备有效
申请号: | 202110018456.0 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112347767B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘志煌;胡林红;罗朝亮;朱虹;王苑瑜;李小宁;王利 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/295 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 设备 | ||
本申请实施例公开了一种文本处理方法、装置及设备。其中的方法包括:获取待识别的目标文本;对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列;将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符。本申请实施例可以更好地从文本中识别出人名实体,提高人名识别的准确性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、一种文本处理装置及一种文本处理设备。
背景技术
许多应用场景(例如,画像构建场景、图谱建设场景、事件挖掘场景、舆情分析场景等等)均涉及人名识别。所谓人名识别可以是指在待识别的文本(或字段)中识别出人名实体的过程。
现有技术中,进行人名识别的方法主要包括以下几种:①基于序列标注的人名识别方法,这种识别方法把人名识别问题看成是一个简单的序列标注的问题;这种简单标注的方式,使得人名识别的准确性较低。②基于循环神经网络的人名识别方法,这种识别方法是基于复杂网络训练的前提下进行的,效率较低,且依赖于人工指定上下文规则,存在灵活性较差、查全率较低及移植性能不好等问题。③基于统计模型的人名识别方法,这种识别方法基于ngram(即一种基于统计语言模型的算法)模型进行人名识别,不能提供较充分的参考特征,容易造成人名实体的误判,人名识别的准确性较低。综上可见,现有进行人名识别方法均存在准确性低的问题,因此,如何从待识别的文本中较为精准地识别出人名实体,成为研究的重要话题。
发明内容
本申请实施例提供一种文本处理方法、装置及设备,可以更好地从文本中识别出人名实体,提高人名识别的准确性。
一方面,本申请实施例提供一种文本处理方法,该方法包括:
获取待识别的目标文本,目标文本包括多个字符;
对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列,目标语法关系序列包括多个按序排列的语法关系标识;
将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;其中,匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;目标语法关系序列包括M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同;其中,参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在匹配序列模式中人名标识排列在第m个参考语法关系标识后。
本申请实施例中,能够对待识别的样本文本进行语法关系分析,得到目标语法关系序列,这能得到待识别的目标文本的语法规则,这些语法规则作为参考信息可帮助在目标文本中定位和抽取人名字符。另外,还将语法关系分析得到的目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取出与目标语法关系序列相匹配的匹配序列模式,进而根据匹配序列模式识别出目标文本中的人名字符。因此,本申请实施例可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
另一方面,本申请实施例提供一种文本处理方法,该方法包括:
获取样本文本集,样本文本集中包含多个具有人名字符标注的样本文本;
对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;
根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110018456.0/2.html,转载请声明来源钻瓜专利网。