[发明专利]一种基于统计和向量空间融合的文本匹配方法及系统在审
| 申请号: | 202111531726.4 | 申请日: | 2021-12-14 |
| 公开(公告)号: | CN114398872A | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 孙亮 | 申请(专利权)人: | 北京思特奇信息技术股份有限公司 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 林聪源 |
| 地址: | 100086 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 统计 向量 空间 融合 文本 匹配 方法 系统 | ||
1.一种基于统计和向量空间融合的文本匹配方法,其特征在于,包括:
针对知识库文本数据中每行数据分别基于统计和基于向量进行文本数据结构化,获得词频向量和句向量;
根据用户输入的场景描述,获取对应的词频向量和句向量;
根据所述知识库文本数据中每行数据的词频向量和句向量及用户输入的所述场景描述对应的词频向量和句向量,分别计算基于统计和基于向量的向量余弦相似度得分;
对基于统计和基于向量的向量余弦相似度得分进行加权融合,输出最终得分;
根据得分情况,获取文本匹配结果。
2.根据权利要求1所述的文本匹配方法,其特征在于:先逐行获取所述知识库文本数据的分词和关键词;
针对每行所述知识库文本数据的所述分词和关键词分别基于统计和向量进行文本数据结构化,获取到对应的词频向量和句向量。
3.根据权利要求2所述的文本匹配方法,其特征在于:获取所述知识库文本数据的分词和关键词时,去除所述分词和关键词中的停用词。
4.根据权利要求2所述的文本匹配方法,其特征在于:所述逐行获取所述知识库文本数据的分词,包括:
调用词典,采用jieba分词对知识库文本数据逐行进行分词处理。
5.根据权利要求2所述的文本匹配方法,其特征在于:所述逐行获取所述知识库文本数据的关键词,包括:
调用停用词库,采用tf-idf进行关键词提取。
6.一种实现如权利要求1~5任一项所述的文本匹配方法的系统,其特征在于,包括:数据处理模块、文本匹配模块和结果输出模块;
所述数据处理模块,用于:
针对知识库文本数据中每行数据分别基于统计和基于向量进行文本数据结构化,获得词频向量和句向量;
所述文本匹配模块,用于:
根据用户输入的场景描述,获取对应的词频向量和句向量;
根据所述知识库文本数据中每行数据的词频向量和句向量及用户输入的所述场景描述对应的词频向量和句向量,分别计算基于统计和基于向量的向量余弦相似度得分;
对基于统计和基于向量的向量余弦相似度得分进行加权融合,输出最终得分;
所述结果输出模块,用于:
根据得分情况,获取文本匹配结果。
7.根据权利要求6所述的文本匹配系统,其特征在于:所述数据处理模块还包括:数据处理前,根据知识库文本数据的类型名称和类型描述文本,若所述类型描述不存在,则只保留类型名称数据。
8.根据权利要求6所述的文本匹配系统,其特征在于:
所述文本匹配模块对所述最终得分进行排序;
所述结果输出模块,根据文本匹配需要,输出最终得分topK的所述知识库文本数据。
9.根据权利要求6所述的文本匹配系统,其特征在于:所述分别计算基于统计和基于向量的向量余弦相似度得分;包括:
基于bm25算法计算知识库文本数据中每行数据的词频向量与用户输入的所述场景描述对应的词频向量的余弦相似度得分;
基于word2vec算法计算知识库文本数据中每行数据的句与用户输入的所述场景描述对应的句向量的余弦相似度得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思特奇信息技术股份有限公司,未经北京思特奇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111531726.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于预测短信系统风险的方法及系统
- 下一篇:一种可调节压力的对旋轴流风机





