[发明专利]一种基于语义和浅层特征的短文本匹配方法有效
申请号: | 202110373418.7 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112966073B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 杨洁;余卫宇 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N3/04 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 韩迎之 |
地址: | 510630 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 特征 文本 匹配 方法 | ||
本发明公开了一种基于语义和浅层特征的短文本匹配方法,涉及文本匹配技术领域。本发明包括以下步骤:读取、预处理第一文本和第二文本,获取字信息;利用word2vec模型将所述字信息映射为字特征向量;提取句编码的特征,对所述特征进行归一化处理,获得统计特征向量;将所述字特征向量和所述统计特征向量分别输入到交互特征学习器和统计特征学习器,分别得到解码向量us和rs;将所述交互特征学习器的输出和所述统计特征学习器的输出进行拼接,将拼接结果输入到MLP层进行预测,若输出结果为1,则所述第一文本和第二文本匹配成功。本发明利用多层感知器进一步提炼表示向量信息,可获得优秀文本匹配表现。
技术领域
本发明涉及文本匹配技术领域,更具体的说是涉及一种基于语义和浅层特征的短文本匹配方法。
背景技术
对于检索任务中,检索出高语义相关的内容至关重要。而短文本匹配方法通过对短文本内容进行匹配,从而实现相似性判断,在各个检索任务中,具有重要的应用价值。在短文本的匹配旨在对两条短文本进行匹配。传统的短文本匹配模型,由于短文本语义稀疏,特征信息少,训练语料少,限制了传统的短文本匹配方法的工业应用。同时,由于两条短文本存在长度差异大,和同义词,别名等无法对齐的情况,进一步限制了短文本匹配的准确性。获取更加丰富的语义特征表示和减少长度差异大的文本对匹配产生的负面影响,解决同义词、别名、简称等对齐问题,是重要的技术点。
发明内容
有鉴于此,本发明设计了特征提取器、交互特征学习器、统计特征学习器,其中特征提取器、交互特征学习器、统计特征学习器,模块分别对短文本和统计特征进行深度编码、基于深度编码后产生的特征表示进行学习,并获得对应的短文本深度表示向量,进而拼接对应表示向量,最后利用多层感知器进一步提炼表示向量信息,可获得优秀表现。本发明提供了一种基于语义和浅层特征的短文本匹配方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于语义和浅层特征的短文本匹配方法,包括以下步骤:
读取、预处理第一文本和第二文本,获取字信息;
利用word2vec模型将所述字信息映射为字特征向量;
提取句编码的特征,对所述特征进行归一化处理,获得统计特征向量;
利用BiLSTM和attention得到所述字特征向量对应的解码向量us;所述统计特征向量经多头注意力机制结构更新所述统计特征向量得到解码向量rs;
将所述解码向量us和所述解码向量rs进行拼接,对拼接结果进行预测,若输出结果为1,则所述第一文本和所述第二文本匹配成功。
优选的,所述字信息包括字数列和词序列。
优选的,所述句编码的特征包括距离特征、文本特征和共现特征。
优选的,其特征在于,所述解码向量us获取的具体过程如下:
将所述字特征向量输入BiLSTM层,进行独立encoder编码,并且在每个向量后加入特殊向量,所述特殊向量可根据实际情况自行设定,得到如下:
其中,是第一文本的所述字特征向量输入BiLSTM层,进行独立encoder编码所得;是第二文本的所述字特征向量输入BiLSTM层,进行独立encoder编码所得;表示第一文本对应的特殊向量;表示第二文本对应的特殊向量;表示第一文本的所述字特征向量,表示第二文本的所述字特征向量;将输入到非线性激活网络,得到隐藏向量矩阵hb,将输入到非线性激活网络,得到隐藏向量矩阵hd:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373418.7/2.html,转载请声明来源钻瓜专利网。