[发明专利]一种服务于智能问答系统的文本匹配算法在审

专利信息
申请号: 202110267040.2 申请日: 2021-03-11
公开(公告)号: CN112988970A 公开(公告)日: 2021-06-18
发明(设计)人: 励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;邓明明;周杰 申请(专利权)人: 浙江康旭科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/335;G06F40/284
代理公司: 暂无信息 代理人: 暂无信息
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 服务 智能 问答 系统 文本 匹配 算法
【权利要求书】:

1.一种服务于智能问答系统的文本匹配算法,其特征在于,包括问答库文本数据集、已优化的jieba分词器、已训练的word2vector模型和已修正的余弦相似度模型;

所述问答库文本数据集包括“固定问题集”和对应“固定问题集”的“固定答案集”;

所述已优化的jieba分词器包括精确模式和搜索模式;

通过CBOW模型对问答库文本数据集训练得到所述已训练的word2vecor模型;

所述已修正的余弦相似度计算模型为:

其中,i和j为同维度的向量,表示i和j第u个向量的向量均值,Ru,i表示输入向量i的第u个向量值,Ru,j表示输入向量j的第u个向量值;

所述文本匹配算法包括以下步骤:

S1、在智能问答系统中输入“咨询问题”;

S2、通过已优化的jieba分词器对“咨询问题”进行中文分词;

S3、通过已训练的word2vector模型对步骤S2中的中文分词进行词向量嵌入,并将中文分词转换为统一维度的词向量;

S4、步骤S3中的词向量通过已修正的余弦相似度模型进行相似度计算,并输出多个相似度计算值;

S5、对多个相似度计算值按照从大到小的顺序进行排序,与“固定问题集”中“固定问题”的给定相似度阈值进行比较,选择相似度计算值最大或者大于相似度阈值的“固定问题”和“对应的固定答案”,作为“咨询问题”的“咨询答案”。

2.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,所述给定相似度阈值的计算方法包括以下步骤:

S1、在智能问答系统中输入“固定问题”;

S2、通过已优化的jieba分词器对“固定问题”进行中文分词;

S3、通过已训练的word2vector模型对步骤S2中的中文分词进行词向量嵌入,并将中文分词转换为固定维度的词向量;

S4、步骤S3中的词向量通过已修正的余弦相似度模型进行相似度计算,并输出多个相似度计算值;

S5、对多个相似度计算值按照从大到小的顺序进行排序,选择相似度计算值最大的相似度计算值作为给定相似度阈值。

3.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括精确模式。

4.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括全模式。

5.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括搜索模式。

6.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,所述CBOW模型将输入的中文分词表达为256维的词向量。

7.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经修正的所述余弦相似度模型为:

其中,x,y为计算相似度的两个n维向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司,未经浙江康旭科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110267040.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top