[发明专利]一种服务于智能问答系统的文本匹配算法在审
申请号: | 202110267040.2 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112988970A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;邓明明;周杰 | 申请(专利权)人: | 浙江康旭科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/335;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 智能 问答 系统 文本 匹配 算法 | ||
1.一种服务于智能问答系统的文本匹配算法,其特征在于,包括问答库文本数据集、已优化的jieba分词器、已训练的word2vector模型和已修正的余弦相似度模型;
所述问答库文本数据集包括“固定问题集”和对应“固定问题集”的“固定答案集”;
所述已优化的jieba分词器包括精确模式和搜索模式;
通过CBOW模型对问答库文本数据集训练得到所述已训练的word2vecor模型;
所述已修正的余弦相似度计算模型为:
其中,i和j为同维度的向量,表示i和j第u个向量的向量均值,Ru,i表示输入向量i的第u个向量值,Ru,j表示输入向量j的第u个向量值;
所述文本匹配算法包括以下步骤:
S1、在智能问答系统中输入“咨询问题”;
S2、通过已优化的jieba分词器对“咨询问题”进行中文分词;
S3、通过已训练的word2vector模型对步骤S2中的中文分词进行词向量嵌入,并将中文分词转换为统一维度的词向量;
S4、步骤S3中的词向量通过已修正的余弦相似度模型进行相似度计算,并输出多个相似度计算值;
S5、对多个相似度计算值按照从大到小的顺序进行排序,与“固定问题集”中“固定问题”的给定相似度阈值进行比较,选择相似度计算值最大或者大于相似度阈值的“固定问题”和“对应的固定答案”,作为“咨询问题”的“咨询答案”。
2.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,所述给定相似度阈值的计算方法包括以下步骤:
S1、在智能问答系统中输入“固定问题”;
S2、通过已优化的jieba分词器对“固定问题”进行中文分词;
S3、通过已训练的word2vector模型对步骤S2中的中文分词进行词向量嵌入,并将中文分词转换为固定维度的词向量;
S4、步骤S3中的词向量通过已修正的余弦相似度模型进行相似度计算,并输出多个相似度计算值;
S5、对多个相似度计算值按照从大到小的顺序进行排序,选择相似度计算值最大的相似度计算值作为给定相似度阈值。
3.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括精确模式。
4.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括全模式。
5.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经优化的所述jieba分词器的分词模式包括搜索模式。
6.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,所述CBOW模型将输入的中文分词表达为256维的词向量。
7.根据权利要求1所述的一种服务于智能问答系统的文本匹配算法,其特征在于,未经修正的所述余弦相似度模型为:
其中,x,y为计算相似度的两个n维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司,未经浙江康旭科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110267040.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立面景观墙的绿化方法
- 下一篇:数据归档方法、装置、设备及存储介质