[发明专利]文本匹配方法、装置及设备在审

专利信息
申请号: 201810274548.3 申请日: 2018-03-30
公开(公告)号: CN110555093A 公开(公告)日: 2019-12-10
发明(设计)人: 周维;徐健鹏;李维 申请(专利权)人: 华为技术有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06F17/27
代理公司: 11363 北京弘权知识产权代理事务所(普通合伙) 代理人: 逯长明;许伟群
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 文本匹配 词向量 向量 装置及设备 准确度 匹配计算 匹配距离 综合文本 申请 匹配 词汇
【说明书】:

本申请实施例公开了一种文本匹配方法、装置及设备。所述方法包括:获取第一文本和第二文本;根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离。本申请实施例的文本匹配方法,综合文本中各个词汇的含义以及文本整句的含义,确定两文本的匹配程度,使得匹配计算的信息全面完整,从而能够提高文本匹配的准确度,提高用户的使用体验。

技术领域

本申请实施例涉及计算机技术领域,尤其涉及一种文本匹配方法、装置及设备。

背景技术

目前,智能问答系统广泛应用于服务领域,一种可选的智能问答流程包括:预先将用户的常见问题(Frequently Asked Questions,FAQ)整理形成问题库,并将问题库以及其中每个问题对应的答案存储在智能问答系统中,当智能问答系统接收到用户输入的问题时,从问题库中匹配与输入问题最接近的目标问题,进而,向用户显示目标问题对应的答案。

现有技术中,智能问答系统基于文本搜索或者句向量模型执行匹配操作。基于文本搜索的匹配原理是,提取输入问题的关键词,将问题库中包含所提取的关键词最多的问题,确定为目标问题。基于句向量模型匹配原理是,按照预设的句向量模型计算输入问题的句向量,将问题库中句向量与输入问题的句向量最接近的问题,确定为目标问题。

其中,由于基于文本搜索执行字符串匹配操作,不考虑所提取的关键词的含义,并且所提取的关键词很大程度上也无法准确体现输入问题的含义,从而导致匹配的准确度较低。而通过句向量模型执行匹配操作,所得到的句向量仅能体现问题句子整句的大致含义,所捕捉的句子含义并不准确,从而导致匹配的准确度也较低。

发明内容

本申请实施例提供了一种文本匹配方法、装置及设备,以解决现有匹配方法的匹配准确度低的问题。

第一方面,本申请实施例提供了一种文本匹配方法,该方法包括,

获取第一文本和第二文本;

根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量计算所述第一文本和所述第二文本的含义匹配距离,所述含义匹配距离用于指示所述第一文本与所述第二文本的含义匹配程度。

由于词向量用于表示文本中词汇的含义,句向量用于表示文本整句的含义,因此,根据第一文本的句向量和词向量以及第二文本的句向量和词向量计算得到的含义匹配距离,能够体现出第一文本和第二文本的词汇含义的匹配程度,以及第一文本和第二文本整句含义的匹配程度。

由此可见,本申请实施例的匹配方法,综合第一文本和第二文本词汇含义和整句含义的匹配程度,确定二者的匹配程度,能够将词汇含义作为文本匹配的一项信息,从而能够提高文本匹配的准确度。

一种可选的设计中,所述根据所述第一文本的句向量和词向量以及所述第二文本的句向量和词向量,计算所述第一文本和所述第二文本的含义匹配距离包括:

分别确定出所述第一文本的K个词向量和所述第二文本的K个词向量,K是正整数;

根据所述第一文本的K个词向量和所述第二文本的K个词向量计算词向量匹配距离;

根据所述词向量匹配距离和句向量匹配距离,计算出所述含义匹配距离,所述句向量匹配距离根据所述第一文本的句向量与所述第二文本的句向量计算得到。

其中,词向量用于表示文本中词汇的含义,词向量之间的距离能够表达量词汇之间的匹配程度。基于此,采用本实现方式,能够将词汇的匹配程度作为文本匹配的参数之一,从而提高文本匹配的准确度。

一种可选的设计中,所述分别确定出所述第一文本和所述第二文本的K个词向量包括:

确定所述第一文本包含的L个词汇字符串,L是大于K的整数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810274548.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top