[发明专利]一种基于深度卷积神经网络的问句相似度度量方法在审
申请号: | 201711162561.1 | 申请日: | 2017-11-21 |
公开(公告)号: | CN108021555A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 张家重;赵亚欧;付宪瑞;王玉奎 | 申请(专利权)人: | 浪潮金融信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/04 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 215300 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 神经网络 问句 相似 度量 方法 | ||
本发明提供一种基于深度卷积神经网络的问句相似度度量方法,包括如下步骤:S1、通过知识领域相关页面生成生语料库,爬取生语料中出现的汉字,生成每一个汉字的对应的字向量;S2、用对应的字向量替换问句中的每一个汉字,得到问句所对应的字向量集合;字向量集合通过卷积神经网络计算获取对应的句义向量;S3、问句进行两两组合,通过计算两个问句所对应句义向量的余弦函数绝对值获取两问句间相似度。本方法采用单字分析的方式,避免了由于切词错误对后续分析的影响;卷积神经网络将整个问句作为一个整体提取整句特征,避免了使用词语相似性矩阵所带来的句义割裂问题。
技术领域
本发明涉及一种问句相似度度量方法啊,具体涉及一种基于深度卷积神经网络的问句相似度度量方法。
背景技术
金融自助服务机器人的主要功能是业务咨询、业务办理、现金存取、用户引导等。业务咨询功能可以理解为针对银行领域的中文问答系统,关键技术是将用户提问与银行问题库中的问题进行相似性计算,返回最相似问题所对应答案。由于自然语言,特别是口语的灵活性,对相同含义问句有多种不同的表达方式,因此,如何根据问句真实语义,计算问句之间的相似度,成为一个亟待解决的问题。
传统的问句相似性计算方法一般有两类:一类是基于关键词匹配的方法,另一类是基于机器学习的方法。基于关键字匹配的方法主要是通过比较两个问句中相同关键词出现的次数、位置、顺序等信息,计算两个句子之间的相似度。该类方法计算较为简单,但对于长句、特别是不同表达方式的同义句,处理效果往往不佳。机器学习的方法主要通过分析领域知识库,建立问句与问句语义之间的模型,来计算不同问句之间的相似度。该类方法计算较为复杂,但由于能较好的处理同义句,因此逐渐成为当前的主流。
近些年,随着深度学习技术在语音、图像等领域取得的成功,其也被引入到相似度计算领域。如现在技术公开的,专利号为CN106776545A的中国专利“一种通过深度卷积神经网络进行短文本间相似度计算的方法”就是代表,其一般的过程是,首先对问句进行切词,然后将每一个词转化成一个词向量,最后,将两个问句中所有词向量所组成的相似矩阵输入卷积神经网络,计算其相似度。
该方法主要有以下几个问题:
第一,中文切词不能做到完全准确,而且其准确率还与特定领域密切相关。如银行领域,由于其专业术语较多,切词准确率一般比较低,较低的准确率会对后续计算造成影响。
第二,此类方法常使用词向量之间的相似矩阵作为问句相似性的度量,这使得问句之间的相似度被割裂为一个个词之间的相似度,破坏了问句的整体语义。
发明内容
鉴于上述现有技术存在的缺陷,本发明的目的就是提出一种基于深度卷积神经网络的问句相似度度量方法,根据问句之间的隐含语义计算问句之间的相似性。
本发明的目的,将通过以下技术方案得以实现:一种基于深度卷积神经网络的问句相似度度量方法,包括如下步骤:
S1、通过知识领域相关页面生成生语料库,爬取生语料中出现的汉字,生成每一个汉字的对应的字向量;
S2、用对应的字向量替换问句中的每一个汉字,得到问句所对应的字向量集合;字向量集合通过卷积神经网络计算获取对应的句义向量;
S3、问句进行两两组合,通过计算两个问句所对应句义向量的余弦函数绝对值获取两问句间相似度。
本发明进一步限定的技术方案是:步骤S1通过知识领域相关页面生成生语料库的方法为:
S11、利用python语言编写网络爬虫,爬取知识相关网页;
S12、对网页进行预处理,去除网页标记、无效字符、数学公式、图片、表格,再合并所有网页,生成原始生语料;
S13、根据标点切分原始生语料,将每个句子切分为若干个子句,每个子句占一行,将其全部合并后,生成最终的生语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮金融信息技术有限公司,未经浪潮金融信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711162561.1/2.html,转载请声明来源钻瓜专利网。