[发明专利]一种服务于智能问答系统的文本匹配算法在审
申请号: | 202110267040.2 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112988970A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 励建科;许化;顾淼;陈再蝶;朱晓秋;樊伟东;邓明明;周杰 | 申请(专利权)人: | 浙江康旭科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/335;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 智能 问答 系统 文本 匹配 算法 | ||
本发明公开了一种服务于智能问答系统的文本匹配算法,包括问答库文本数据集、已优化的jieba分词器、已训练的word2vector模型和已修正的余弦相似度模型。本发明中,通过将jieba分词的精确模式和搜索模式的优点相结合得到已优化的jieba分词器,在对“咨询问题”进行中文分词以后,通过word2vector模型进行词向量嵌入,将中文分词转换为可以计算的词向量,再对其进行修正后的余弦相似度模型计算,提高了相似度计算的精度,从而实现文本相似度计算,最后对于相似度进行排序,给定相似度阈值,选择问答库文本数据集中相似度计算值最高并且超过给定相似度阈值的“固定问题”和对应的“固定答案”作为“咨询问题”的问答对。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种服务于智能问答系统的文本匹配算法。
背景技术
NLP(Natural Language Processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向,是计算机科学、人工智能、语言学关注计算机和人类(自然)语言之间的相互作用的领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学,因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别,自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统,因而它是计算机科学的一部分。
自然语言处理又分为自然语言理解和自然语言生成,文本匹配便是自然语言理解中的一个分支和应用,可以应用于大量的NLP任务中,如信息检索、问答系统、复述问题、对话系统、机器翻译等,本发明提供一种服务于智能问答系统的文本匹配算法,通过中文分词和词向量嵌入进行文本相似度计算,尝试在问答库中寻找与所问问题最接近的问答对。
发明内容
为了解决上述背景技术中所提到的问题,而提出的一种服务于智能问答系统的文本匹配算法。
为了实现上述目的,本发明采用了如下技术方案:
一种服务于智能问答系统的文本匹配算法,包括问答库文本数据集、已优化的jieba分词器、已训练的word2vector模型和已修正的余弦相似度模型;
所述问答库文本数据集包括“固定问题集”和对应“固定问题集”的“固定答案集”;
所述已优化的jieba分词器包括精确模式和搜索模式;
通过CBOW模型对问答库文本数据集训练得到所述已训练的word2vecor模型;
所述已修正的余弦相似度计算模型为:
其中,i和j为同维度的向量,表示i和j第u个向量的向量均值,Ru,i表示输入向量i的第u个向量值,Ru,j表示输入向量j的第u个向量值;
所述文本匹配算法包括以下步骤:
S1、在智能问答系统中输入“咨询问题”;
S2、通过已优化的jieba分词器对“咨询问题”进行中文分词;
S3、通过已训练的word2vector模型对步骤S2中的中文分词进行词向量嵌入,并将中文分词转换为统一维度的词向量;
S4、步骤S3中的词向量通过已修正的余弦相似度模型进行相似度计算,并输出多个相似度计算值;
S5、对多个相似度计算值按照从大到小的顺序进行排序,与“固定问题集”中“固定问题”的给定相似度阈值进行比较,选择相似度计算值最大或者大于相似度阈值的“固定问题”和“对应的固定答案”,作为“咨询问题”的“咨询答案”。
作为上述技术方案的进一步描述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江康旭科技有限公司,未经浙江康旭科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110267040.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种立面景观墙的绿化方法
- 下一篇:数据归档方法、装置、设备及存储介质