[发明专利]基于问答库的搜索方法、装置、电子设备及存储介质在审
| 申请号: | 202210060347.X | 申请日: | 2022-01-19 |
| 公开(公告)号: | CN114416909A | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 蒋佳惟 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/332 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市福田街道益田路5033号平安金融*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 问答 搜索 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据查询技术,揭露一种基于问答库的搜索方法,包括:对预设的问答库中的问题文本进行词袋向量转换,得到每个所述问题文本对应的词袋向量;利用所述词袋向量,构建所述问答库的二叉树;获取待搜索文本,对所述待搜索文本执行词袋向量转换操作,得到所述待搜索文本的词袋向量;在所述二叉树中,查询所述待搜索文本的词袋向量对应的叶子节点,识别每个所述叶子节点上的问题文本并作为参考文本,计算每个所述参考文本与所述待搜索文本之间的相似度,根据相似度计算结果推送相应的参考文本对应的答案。本发明还提出一种基于问答库的搜索装置、电子设备以及存储介质。本发明可以提升问答库的问题搜索效率。
技术领域
本发明涉及数据查询技术领域,尤其涉及一种基于问答库的搜索方法、装置、电子设备及计算机可读存储介质。
背景技术
随着搜索技术及深度学习技术的发展,问答系统的使用日益广泛。例如,百度知道、知乎等互联网问答系统,以及企事业单位常见的问题自助系统。
当前基于问答系统的相似文本搜索方法,较为普遍的是利用神经网络模型,提取待搜索文本的文本特征,计算待搜索文本的文本特征与问答系统中的问题文本的文本特征之间的相似度,得到相似度最高的问题文本,并将所述相似度最高的问题文本对应的答案作为搜索结果返回给用户。
这种相似文本搜索方法,需要将待搜索文本与问答系统中的每个问题文本进行计算,通常问答系统中的问题文本的数量是非常庞大的,这种相似文本搜索方法会带来大量的计算工作量,尤其是在搜索高峰期,可能会导致搜索产生一定的延时,不适用于低延时要求的搜索场景,例如,快速召回场景。
发明内容
本发明提供一种基于问答库的搜索方法、装置及计算机可读存储介质,其主要目的在于提升问答库的问题搜索效率。
为实现上述目的,本发明提供的一种基于问答库的搜索方法,包括:
对预设的问答库中的问题文本进行词袋向量转换,得到每个所述问题文本对应的词袋向量;
利用所述词袋向量,构建所述问答库的二叉树;
获取待搜索文本,对所述待搜索文本执行词袋向量转换操作,得到所述待搜索文本的词袋向量;
在所述二叉树中,查询所述待搜索文本的词袋向量对应的叶子节点,识别每个所述叶子节点上的问题文本并作为参考文本,计算每个所述参考文本与所述待搜索文本之间的相似度,根据相似度计算结果推送相应的参考文本对应的答案。
可选地,所述对预设的问答库中的问题文本进行词袋向量转换,得到每个所述问题文本对应的词袋向量,包括:
对每个所述问题文本进行分词,并统计每个分词在对应的问题文本中出现的次数;
根据每个所述问题文本的分词及每个所述分词出现的次数,利用词袋模型算法,生成每个所述问题文本的词袋向量。
可选地,所述对每个所述问题文本进行分词,包括:
对每个所述问题文本执行至少一种分词操作,得到多个分词;
对每个所述分词进行词性标注;
根据每个所述分词的词性,对每个所述问题文本进行语法分析,并判断所述问题文本的语法是否正确;
若所述问题文本的语法不正确,则返回上述的对每个所述问题文本执行至少一种分词操作的步骤;
若所述问题文本的语法正确,则停止分词操作,将当前的分词作为所述问题文本的分词。
可选地,所述根据每个所述问题文本的分词及每个所述分词出现的次数,利用词袋模型算法,生成每个所述问题文本的词袋向量之后,所述方法还包括:
将所述问答库的所有分词汇集为分词词库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210060347.X/2.html,转载请声明来源钻瓜专利网。





