[发明专利]基于人工智能的语义相似度获取方法及装置有效
申请号: | 201611042515.3 | 申请日: | 2016-11-21 |
公开(公告)号: | CN106776782B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 周坤胜;何径舟;石磊;冯仕堃;朱志凡 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/9535;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 语义 相似 获取 方法 装置 | ||
本发明提出一种基于人工智能的语义相似度获取方法及装置,其中,方法包括:通过在得到query和title的多粒度特征后,获取每个粒度特征的权重,通过该权重可以体现出不同粒度的特征所具有的重要程度,然后在对query和title进行多粒度表示时,加入了每个粒度特征的权重这一因数,从而在计算query和title相似度时,不同粒度特征根据自己的重要性发挥不同的作用,使得相似度计算精度更高,实现对现有语音相似度模型的优化,并且可以使得搜索结果精准,能够更符合用户的需求。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的语义相似度获取方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
基于人工智能对用户的搜索行为进行分析,可以得知用户在搜索时目的是通过搜索结果能够尽快获取到与用户所输入的搜索词相关的内容。
根据搜索词的语义进行检索是实现知识检索的关键之一,而相似度计算则是语义检索的基础。目前语义相似度模型可以计算用户搜索时所输入的搜索词(query)与候选搜索条目(title)之间的相似度,在获取query与title之间的相似度之后,搜索引擎可以对获取到的相似度进行排序,按照排序结果返回搜索结果。图1为现有的语义相似度模型的结构示意图。该语义相似度模型包括:底层为嵌入(embedding)层、变换(BOW)层、对比(FC)层以及顶层打分(Score)层。其中,embedding层由所有字典词的向量化表示组成,当用户在搜索时输入的一个句子后,embedding层可以将该句子映射成一个二维向量,每一个子向量为其术语(term)对应的term-embedding;BOW层表示对二维向量所作的变换,将二维向量变换成一个一维向量,该层也可以被替换成卷积与pooling;FC层为全联通层,该FC层对一维向量做线性变换,可选的可以在线性变换后增加一个激活函数,通过该激活函数加上非线性转换;Score层用于对得到的query和title之间的相似度做度量。例如,query为“百度巴西葡语”,而title“巴西葡语”,在对query和title切词后,可得到query和title离散的词序列,query的离散词序列包括:百度、巴西、葡语,而title离散的词序列包括:巴西、葡语。通过图1所示的语义相似度计模型计算query和title之前的相似度时,将query切词后的每个单词作为一个粒度,然后利用query所有的单词对query做一个单粒度向量表示,相应地,将title切词后的每个单词作为一个粒度,然后利用title所有的单词对title做一个单粒度向量表示。这种单粒度的语义相似度计算,获取到相似度精度较差,导致搜索结果不够理想。
为了提高搜索精度,如图2所示,对语义相似模型进行了改进,在相似度计算的过程中,对query和title进行切词后,利用分词语料进行特征提取,获取到query和title的多个粒度特征,如query的基础粒度特征(query-basic)query的二元特征(query-basic-bigram),title的基础粒度特征(title-basic)、title的二元特征(title-basic-bigram)。如图2所示虽然引入了多粒度来表示query和title,但是在计算query和title之间的相似度之前,语义相似度模型中并不对query和title的多粒度特征不进行区分,在变换BOW层直接将query的多粒度特征相加,得到query的多粒度表示,将title的多粒度特征相加,得到title的多粒度表示。
现有的语音相似度模型由于不对多粒度特征进行区别直接将多粒度相加,得到query和title的多粒度表示,使得搜索引擎得到的搜索结果精确性较差。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611042515.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人群关系网络分析方法及装置
- 下一篇:非结构化数据存储管理方法和系统