[发明专利]文本处理方法、装置、计算机设备及存储介质在审
申请号: | 202111162110.4 | 申请日: | 2021-09-30 |
公开(公告)号: | CN114281956A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 程轶;刘文阁;唐鉴恒;赵瑞辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 孙晓丽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请提供了一种文本处理方法、装置、计算机设备及存储介质,属于人工智能技术领域,应用于自然语言处理场景。所述方法包括:基于输入文本中的多个词语,从知识图谱中获取目标子图;对所述输入文本进行编码,得到所述输入文本的文本编码特征;将所述文本编码特征作为文本节点加入所述目标子图,基于所述多个词语与所述多个节点的对应关系在所述目标子图中添加边;基于所述目标子图中多个节点的实体关系特征和所述文本编码特征,确定所述输入文本的文本语义信息。上述技术方案,由于不需要将目标子图转化为序列化的结构,因此能够保留知识图谱的图结构中的信息,显著提高了确定文本语义信息的准确性。
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本处理方法、装置、计算机设备及存储介质。
背景技术
中文自然语言理解具有广泛的应用,如搜索、问答以及语义检测等。然而,在文本中包括某个专业领域的专业词语时,如何准确的理解该专业词语的专业释义,是一个研究方向。
目前,理解语句中专业词语的方式是将专业领域的专业知识图谱和语言模型相结合,将专业知识图谱中每个节点所对应的三元组都枚举出来,将每个三元组都构造成样本语句,该样本语句中遮盖掉了任一实体或者实体关系,基于该样本语句进行训练,由语言模型来预测被遮盖的内容。由于实体即为专业词语,从而语言模型能够学习到专业词语之间的联系,进而理解专业词语的专业释义。
上述方案并未考虑到语言模型适用于处理序列信息,而不适用于处理专业知识图谱的图结构,需要将知识图谱转化为序列化的结构才能够进行处理,导致图结构中的信息被损失,从而准确性较低。
发明内容
本申请实施例提供了一种文本处理方法、装置、计算机设备及存储介质,不需要将目标子图转化为序列化的结构,能够保留知识图谱的图结构中的信息,显著提高了确定文本语义信息的准确性。所述技术方案如下:
一方面,提供了一种文本处理方法,所述方法包括:
基于输入文本中的多个词语,从知识图谱中获取目标子图,所述目标子图包括所述多个词语对应的多个节点和表示所述多个节点之间关联关系的多条边;
对所述输入文本进行编码,得到所述输入文本的文本编码特征;
将所述文本编码特征作为文本节点加入所述目标子图,基于所述多个词语与所述多个节点的对应关系在所述目标子图中添加边;
基于所述目标子图中多个节点的实体关系特征和所述文本编码特征,确定所述输入文本的文本语义信息,所述实体关系特征用于表示对应节点的节点特征、对应节点在所述目标子图中的邻居节点的节点特征以及对应节点与在所述目标子图中的邻居节点之间的关系特征。
在一些实施例中,所述基于输入文本中的多个词语,从知识图谱中获取目标子图,包括:
基于所述多个词语,构造至少一个文本语义图,所述文本语义图中的多个第一节点表示所述多个词语,所述文本语义图中的边表示所述多个词语之间的关联关系;
从所述知识图谱中获取多个第二节点,所述多个第二节点对应的词语与所述多个词语之间的相似度不小于相似度阈值;
对于任一第二节点,获取所述第二节点的节点子图,所述节点子图包括所述第二节点和所述第二节点的邻居节点;
从所述知识图谱中获取包括所述多个第二节点的节点子图的最小图,作为所述目标子图。
另一方面,提供了一种文本处理装置,所述装置包括:
子图获取模块,用于基于输入文本中的多个词语,从知识图谱中获取目标子图,所述目标子图包括所述多个词语对应的多个节点和表示所述多个节点之间关联关系的多条边;
编码模块,用于对所述输入文本进行编码,得到所述输入文本的文本编码特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111162110.4/2.html,转载请声明来源钻瓜专利网。