[发明专利]一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质在审
| 申请号: | 202110690386.3 | 申请日: | 2021-06-22 |
| 公开(公告)号: | CN113449074A | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 张丹;陈浩;陈璟;段朋;蔡春茂 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/279;G06F40/30 |
| 代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
| 地址: | 400023 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 专有名词 句子 向量 相似 匹配 优化 方法 装置 存储 介质 | ||
本发明公开一种含专有名词句子向量相似度优化方法、装置及存储介质,先通过行业或厂商的专业语料计算出专业词向量模型,然后分别利用专业词向量模型和通用词向量模型计算出知识库每个知识点和用户咨询所对应的两个句子向量,依据专业词向量模型先计算用户咨询与知识点的相似度,选出最相似的n条,再根据通用词向量模型计算所对应的相似度,并将两者的加权相似度来作为最终相似度。本发明利用了两个词向量模型,在大规模的开源词向量模型对通用领域词汇的强大处理能力上,利用小规模的专业词向量模型对语义识别进行增强,在专业领域语料规模不大的情况下,极大地提升对含专业词汇的语义理解能力。
技术领域
本发明涉及自然语言处理方法,具体涉及专有领域句子向量相似度优化方法。
背景技术
如今AI服务在各行业应用日益广泛,对于行业或厂商,都有各行业或各厂商特有的专业或专有术语,采用自然语言处理技术,在专业领域问题的咨询中会出现一些问题。
例如,为提升汽车智能化程度,实时解决用户用车问题,同时解放部分人工客服工作,长安汽车在车辆远程控制软件中引入了智能机器人。自从智能机器人小安上线以来,累计咨询量已达600万+人次,每月用户咨询量已接近3万。目前虽然在机器人的算法上加上了自动训练功能,但是实际的准确率一直停留在70%左右,并且在专业领域问题的咨询中出现一部分答非所问的情况。
厂商通常采用的智能机器人算法原理是通过计算用户询问的问题与知识库相似度来进行匹配,从而来找到用户需要的答案。而计算相似度是通过分词→获取词向量→计算句子向量→计算相似度的逻辑来实现的。由于传统的语言模型缺乏行业或厂商相关专业术语,例如,汽车行业,或者某个汽车厂商,因此无法获取汽车行业专业术语词向量,在计算句子向量的逻辑里,若某个关键词的词向量获取不到,就将其设置为0向量来处理,就相当于缺失这个词。因为用户对专业领域的问题咨询内容中,关键词是一些专业术语,一句话里面关键词丢失了,无论计算方法如何改进,准确率就不可能很高。所以要提升基于词向量的句子相似度更好的方式是从优化词向量入手。
目前的词向量优化方法都是基于算法本身进行优化,或者在训练语料中加入专业词汇,从而训练出一个既包含专业术语又包含通用领域的词向量模型,然而训练一个这样的模型要求语料数据至少达到亿级,而对于每个厂商,如车企在通用领域一般不具备如此庞大的数据量。因此对于专业领域亟需一种对数据要求更少的优化方式来优化词向量模型。
发明内容
鉴于以上原因,本发明的目的是提供一种针对含专有名词的句子向量(词向量集合)相似度匹配优化方法,利用开源的通用领域词向量模型(比如腾讯词向量模型),在专业术语语料规模不大的情况下,能够准确识别到用户咨询中的专业术语,并且能够转换成对应的词向量,以提高语句识别的准确度,从而提升用户的满意度。
本发明的技术方案如下:
本发明提供一种含专有名词的句子向量相似度计算的优化方法,本发明提出的句子向量(词向量集合)相似度匹配优化方法,先通过行业或厂商的专业语料计算出专业词向量模型,然后分别利用专业词向量模型和通用词向量模型计算出知识库每个知识点和用户咨询所对应的两个句子向量,依据专业词向量模型先计算用户咨询与知识点的相似度,选出最相似的n条,再根据通用词向量模型计算所对应的相似度,并将两者的加权相似度来作为最终相似度。其具体步骤如下:
步骤1:整理行业或厂商的产品说明书、用户已有的咨询问题等其中包含大量行业或厂商的专业术语的语料。
步骤2:将整理好的语料输入到开源词向量算法模型(比如Word2Vec、Bert等),设置向量维数(由于专业词汇并不是太多,可以将维数设置为100)、训练窗口大小、学习速率等相关参数,通过算法模型跑出专业领域词向量模型,将其存储,即得到专业领域词向量模型model_pro。其中,相关参数(比如维数)可以根据专有领域的语料规模以及算力要求来动态设置,具体参数的设置参考算法模型提供的指导文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690386.3/2.html,转载请声明来源钻瓜专利网。





