[发明专利]一种文本处理方法、系统和存储介质有效
申请号: | 202210433223.1 | 申请日: | 2022-04-24 |
公开(公告)号: | CN114528418B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 汤甘 | 申请(专利权)人: | 杭州同花顺数据开发有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F40/295 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 310023 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 系统 存储 介质 | ||
1.一种文本处理方法,所述方法包括:
获取待处理文本;
利用第一抽取模型,从所述待处理文本中抽取第一实体,将任意一个所述第一实体的向量分别和所述待处理文本的特征向量中每个字和/或词特征向量进行融合,获取所述第一实体和所述待处理文本的第一联合编码,基于所述第一联合编码获取每种预定义关系对应的所述待处理文本的实体标注序列,并根据所述每种所述预定义关系对应的待处理文本的实体标注序列,从所述待处理文本中抽取每种所述预定义关系对应的第二实体,以获取至少一个A类实体三元组;其中,所述实体标注用于指示所述待处理文本中与所述预定义关系对应的字和/或词;每个所述A类实体三元组包括所述第一实体、所述第二实体以及所述第一实体和所述第二实体之间的预定义关系;
利用第二抽取模型,从所述待处理文本中抽取多个第三实体,在所述待处理文本中,为每个所述第三实体添加第一标签和第二标签,获取标签文本,基于所述标签文本获取对应的标签文本表示向量;基于所述标签文本表示向量,获取对应的标签编码向量;根据所述标签编码向量,获取所述任意两个第三实体对应的获取第二联合编码,并基于所述第二联合编码确定任意两个所述第三实体之间的开放关系,以获取多个B类实体三元组;其中,所述第一标签和所述第二标签分别用于指示所述第三实体的第一个字和最后一个字;每个所述B类实体三元组包括两个第三实体以及所述两个第三实体之间的开放关系;
基于筛选规则,从所述A类实体三元组和所述B类实体三元组中获取目标实体三元组。
2.如权利要求1所述的方法,还包括:
将所述待处理文本作为训练样本,将所述目标实体三元组作为训练标签,训练所述第一抽取模型和/或所述第二抽取模型。
3.如权利要求1所述的方法,所述根据所述标签编码向量,获取所述任意两个第三实体对应的第二联合编码,包括:
获取所述标签编码向量中至少一个所述第一标签对应的至少一个第一标签向量;
基于所述任意两个第三实体对应的任意两个所述第一标签向量,获取第一标签融合向量;
基于所述第一标签融合向量和所述标签编码向量,获取所述任意两个第三实体对应的第二联合编码。
4.如权利要求1所述的方法,所述第一抽取模型和/或所述第二抽取模型包括以下模型中的一种或多种:BERT、Transformer、Stanford NLP或LTP。
5.如权利要求1所述的方法,所述筛选规则包括:
基于所述A类实体三元组和/或所述B类实体三元组对应的所述待处理文本的时效性,获取所述目标实体三元组;
基于所述A类实体三元组和/或所述B类实体三元组在所述待处理文本中的出现次数,获取所述目标实体三元组;和/或
根据打分模型对所述A类实体三元组和/或所述B类实体三元组的打分结果,获取所述目标实体三元组。
6.如权利要求1所述的方法,所述第一实体、第二实体和/或第三实体为金融实体,所述金融实体的类型包括公司、人物、行业、指标、数值和地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州同花顺数据开发有限公司,未经杭州同花顺数据开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210433223.1/1.html,转载请声明来源钻瓜专利网。