[发明专利]一种文本处理方法、装置及设备有效
申请号: | 202110018456.0 | 申请日: | 2021-01-07 |
公开(公告)号: | CN112347767B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 刘志煌;胡林红;罗朝亮;朱虹;王苑瑜;李小宁;王利 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/295 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 设备 | ||
1.一种文本处理方法,其特征在于,包括:
获取待识别的目标文本,所述目标文本包括多个字符;
对所述目标文本进行语法关系分析,得到所述目标文本对应的目标语法关系序列,所述目标语法关系序列包括多个按序排列的语法关系标识;
将所述目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式;其中,所述匹配序列模式包括N个参考标识,所述N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;所述目标语法关系序列包括所述M个参考语法关系标识,且所述M个参考语法关系标识在所述目标语法关系序列中的排列顺序与所述M个参考语法关系标识在所述匹配序列模式中的排列顺序相同;其中,所述参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
获取所述目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在所述匹配序列模式中所述人名标识排列在所述第m个参考语法关系标识后。
2.如权利要求1所述的方法,其特征在于,所述将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符之后,所述方法还包括:
对所述目标文本进行人名字符标注,并对人名字符标注后的目标文本进行语法关系序列模式挖掘,得到目标序列模式;
将所述目标序列模式作为一个参考序列模式添加到所述参考序列模式集合中。
3.如权利要求1所述的方法,其特征在于,所述参考序列模式集合包括的各个参考序列模式,按照每个参考序列模式所属的语法关系类型不同,被划分为词性参考序列模式子集、语义关系参考序列模式子集和句法关系参考序列模式子集;所述语法关系类型包括词性关系、句法关系以及语义依存关系;所述目标语法关系序列包括第一类语法关系序列,所述将所述目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式,包括:
确定所述第一类语法关系序列所属语法关系类型,并从所述参考序列模式集合中获取与所述第一类语法关系序列所属语法关系类型对应的第一参考序列模式子集;
将所述第一参考序列模式子集中与所述第一类语法关系序列相匹配的参考序列模式作为候选参考序列模式,并将所述候选参考序列模式添加至候选参考序列模式集合中;
从所述候选参考序列模式集合中选取所述匹配序列模式。
4.如权利要求3所述的方法,其特征在于,所述参考序列模式集合中任一参考序列模式对应一个支持度,所述支持度用于反映所述任一参考序列模式在所述样本文本集中出现的频率;所述从所述候选参考序列模式集合中选取所述匹配序列模式,包括:
获取所述候选参考序列模式集合中每个候选参考序列模式对应的支持度;
计算所述候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式的第一数量;以及,计算所述候选参考序列模式集合包括的候选参考序列模式的总数量;
将所述第一数量与所述总数量进行相除运算得到所述候选参考序列模式集合的置信度;
若所述候选参考序列模式集合的置信度大于置信度阈值,则将所述候选参考序列模式集合中支持度最高的候选参考序列模式确定为所述匹配序列模式。
5.如权利要求4所述的方法,其特征在于,所述目标语法关系序列还包括第二类语法关系序列,所述方法还包括:
若所述候选参考序列模式集合的置信度小于或等于所述置信度阈值,则确定所述第二类语法关系序列所属语法关系类型,并从所述参考序列模式集合中获取与所述第二类语法关系序列所属语法关系类型对应的第二参考序列模式子集;
将所述第二参考序列模式子集中与所述第二类语法关系序列相匹配的参考序列模式,作为候选参考序列模式添加到所述候选参考序列模式集合中,并执行所述获取所述候选参考序列模式集合中每个候选参考序列模式对应的支持度的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110018456.0/1.html,转载请声明来源钻瓜专利网。