[发明专利]一种关联关系提取方法、装置及电子设备在审

申请号：	202110295070.4	申请日：	2021-03-19
公开（公告）号：	CN113010573A	公开（公告）日：	2021-06-22
发明（设计）人：	胡伟	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F40/194;G06K9/62;G06Q50/26;G06N3/04;G06N3/08
代理公司：	北京晋德允升知识产权代理有限公司 11623	代理人：	刘立升
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种关联关系提取方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种关联关系提取方法、装置及电子设备。所述方法包括：获取一个或多个待处理文本；利用预定的检测方式对所述待处理文本进行检测，以便从所述待处理文本中提取出若干个目标文本；根据预先训练的文本相似度模型，将每个所述目标文本与预设的标准文本库中的文本分别进行相似度计算，得到每个所述目标文本与所述标准文本库中各文本之间对应的相似度值；对于任一目标文本和所述标准文本库中的任一文本，将大于指定阈值的相似度值所对应的所述标准文本库中的文本作为该目标文本的标准文本，并建立所述标准文本与所述待处理文本之间的关联关系。

技术领域

本说明书涉及数据处理技术领域，尤其涉及一种关联关系提取方法、装置及电子设备。

背景技术

目前随着互联网及大数据技术的普及与发展，互联网平台中产生了大量的数据，数据通常以离散的数据点的形式存在，相互之间并未建立关联，通过将数据进行关联，有助于挖掘出更大的数据价值，实现底层数据沉淀，并支撑业务需求。

现有技术中，在建立数据之间的关联关系时，通过从数据中提取出文本与数据库中的文本进行比对，从而发现数据之间的关联关系。但是，由于数据内容质量参差不齐，导致提取出来的文本中往往存在一些异常情况(如异常字符等)，因此，以上关联方式对数据质量要求较高，容易造成关联关系的遗漏，降低了对数据之间关联关系提取的准确率和效率。

基于现有技术，需要提供一种不依赖于数据质量，适用性更广，且能够准确、高效地对关联关系进行提取的方案。

发明内容

本说明书实施例提供一种关联关系提取方法、装置及电子设备，以解决现有技术存在的对数据质量要求较高，对关联关系提取的准确率和效率低的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种关联关系提取方法，所述方法包括：

获取一个或多个待处理文本；

利用预定的检测方式对所述待处理文本进行检测，以便从所述待处理文本中提取出若干个目标文本；

根据预先训练的文本相似度模型，将每个所述目标文本与预设的标准文本库中的文本分别进行相似度计算，得到每个所述目标文本与所述标准文本库中各文本之间对应的相似度值；

对于任一目标文本和所述标准文本库中的任一文本，将大于指定阈值的相似度值所对应的所述标准文本库中的文本作为该目标文本的标准文本，并建立所述标准文本与所述待处理文本之间的关联关系。

本说明书实施例提供的一种关联关系提取装置，所述装置包括：

获取模块，用于获取待处理的待处理文本；

检测模块，用于利用预定的检测方式对所述待处理文本进行检测，以便从所述待处理文本中提取出若干个目标文本；