[发明专利]基于细粒度匹配信号的文本相关性度量方法和系统在审

专利信息
申请号: 201811466325.3 申请日: 2018-12-03
公开(公告)号: CN109753649A 公开(公告)日: 2019-05-14
发明(设计)人: 程学旗;庞亮;兰艳艳;郭嘉丰;沈华伟;陈丽娟;张海楠;曾玮;李家宁;赵峻瑶;倪艺函 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 语义相似度 匹配信号 词向量 细粒度 匹配矩阵 灰度图 特征图 度量 两段 神经网络结构 二维数据 函数处理 连接网络 匹配模式 实际数据 实数矩阵 图像模式 语义匹配 映射 二维 构建 灰度 卷积 集合 转换
【说明书】:

发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统,包括:获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0‑1之间的一个分数,将该分数作为该两段文本之间的相关性。本发明能够构建细粒度匹配信号,提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

技术领域

本发明涉及自然语言处理领域,并特别涉及一种基于细粒度匹配信号的文本相关性度量方法和系统。

背景技术

文本相关性度量是自然语言处理领域大量任务的基础技术,其中包括复述任务、信息检索、问答系统、对话系统等。相关性用来衡量两段文本相关关系的强度,这种相关关系可以定义为复述任务中语义的等价关系,可以定义为问答系统中逻辑的推断关系,也可以定义为对话系统中的回复的一致关系。通常文本相关性使用一个实数值来表示,称为相关度,数值越大表示越相关,反之表示越不相关。因此几乎所有的文本相关性度量的问题,都会抽象成相关度数值估计的问题。其中一部分工作将这个相关度的值看作是一个概率,建模成一个二值分类问题(相关与不相关);另一部分工作将相关度的值看作是一个有序数值,建模成一个排序问题。由此自动度量文本相关性的问题,最终转换成给定两段文本,预测相关度数值的机器学习预测问题。

文本相关性度量目前比较流行的算法包括:BM25模型、DSSM(Deep SemanticStructuredModel)模型、以及Arc-I模型。

BM25模型是基于信息检索任务提出的文本相关性度量方法,是传统信息检索系统中最常用的相关性度量模型。BM25模型旨在刻画查询词在相关文档中的出现次数、重要度与相关度的函数关系,包含的超参数较少,执行速度快。但是无法解决语义相关的问题。

DSSM模型是微软研究院提出的基于文本表达的文本相关性度量模型。该模型是基于Siamese架构提出的,首先对两段文本分别压缩到相同维度的向量表达,然后使用一种向量相似度的计算方法得到相关度。DSSM模型创新的提出了字符三元组的形式表示一段文本,从而大大减小词表达小、建模词根信息,因而可以解决语义相关的问题。DSSM模型利用全连接网络建模文本向量表达,之后利用余弦相似度度量文本向量表达之间的相关度。

Arc-I模型是华为诺亚方舟实验室提出的基于词向量(Word Embedding)技术和卷积神经网络(Convolutional Neural Network)技术的文本相关性度量模型。Arc-I模型同样也是基于Siamese架构提出的,两段文本也会分布压缩到同一维度的向量表达。为了解决语义相关问题,Arc-I模型使用了在大数据上预训练的词向量表达,词向量可以很好的刻画不同词之间的相关关系。为了更好的保持文本中的局部词序信息,Arc-I模型使用了在图像任务中常用的卷积神经网络。在文本相关性度量任务中,Arc-I是较为常用的深度学习算法。

当前现有的技术存在着不同的问题:

1)现有的文本相关性模型,例如BM25模型,无法建模文本语义的相关性。但是在自然语言中,同义词、一词多义的现象是非常常见的,只有建模文本符号和语义的多元对应关系,才能得到真实可用的文本相关性模型。

2)现有的文本相关性模型,例如DSSM模型,利用全连接网络建模文本表达,全连接网络忽视了文本的词序信息。人类的语言就是在“有限符号集合上的无限组合过程”,因此除了单个符号内容本身,词序信息也是非常重要的。

3)现有的文本相关性模型,例如DSSM模型和Arc-I模型,都是基于Siamese的框架提出的,两段文本首先被压缩到了一个低维度的向量表达。对文本内容的压缩,会丢失大量的文本细节信息,从而导致较差的文本相关性度量效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811466325.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top