[发明专利]一种面向用户查询意图的汉语句子相似度分层计算方法及装置有效
申请号: | 201410341855.0 | 申请日: | 2014-07-17 |
公开(公告)号: | CN104133812B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 张仰森;李景玉 | 申请(专利权)人: | 北京信息科技大学;张仰森 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 用户 查询 意图 汉语 句子 相似 分层 计算方法 装置 | ||
技术领域
本发明属于汉语句子相似度计算技术领域,尤其涉及一种面向用户查询意图的汉语句子相似度分层计算方法及装置。
背景技术
相似度计算是自然语言处理领域的基础工作,应用背景广泛。根据处理对象的不同,可以分为词相似度计算、句子相似度计算以及篇章相似度计算。其中句子相似度计算在信息检索、机器翻译、问答系统以及自动文摘等应用领域中的效能直接影响着应用系统的整体性能。因此,目前仍有众多学者热衷于不断改进句子相似度的计算方法。
目前的句子相似度计算方法主要有基于编辑距离的句子相似度计算方法,基于本体词典或知网语义的句子相似度计算方法,基于语义依存的句子相似度计算方法等等。
编辑距离,也称Levenshtein distance,是常用的句子相似度计算方法之一。通过计算一个句子转换成另一个句子的最小编辑操作数,来判定两个句子是否相似。其中编辑操作包括“删除”、“插入”和“替换”。若两个句子的编辑距离越小,则两个句子越相似。文献1(车万翔,刘挺,秦兵等.基于改进编辑距离的中文相似句子检索[J].高级技术通讯,2004.7,14(7):15-19)基于编辑距离思想,以及汉语中单个字往往不具备意义的特点,提出改进的编辑距离计算句子相似度算法,以词为单位计算编辑距离,同时融入Hownet和《同义词词林》两个语义资源。文献2(吕学强,任飞亮,黄志丹等.句子相似模型和最相似句子查找算法[J].东北大学学报(自然科学版),2003.6,24(6):531-534)从词形、词序两方面计算句子相似度,文献3(杨思春等.一种改进的句子相似度计算模型[J].电子科技大学学报,2006.12,35(6):956-959)在文献2的基础上对关键词的抽取方法进行改进,考虑同义词的情况,准确率有所提高。
文献1提出的改进编辑距离计算句子相似度算法,虽然考虑了中文语言的特点,并融入语义信息,但是,由于目前中文分词的效果并不理想,不同的语境下一个词有时可以识别出来,有时却不能,分词的不准确势必会带来编辑距离结果的误差。这势必会影响计算相似度的准确率。文献2和文献3提出的句子相似度计算方法,虽然准确率有所提高,但是对于长度较长、结构较为复杂的句子效果仍不理想。
发明内容
本发明的目的在于提供一种面向用户查询意图的汉语句子相似度分层计算方法及装置,旨在克服中文分词效果不理想的问题,同时解决对于关键词差异大、长度长、句子结构复杂的句子计算相似度效果不理想的问题,通过分层计算的思想,提高相似度计算的准确性,提升本方案的实用价值。
本发明是这样实现的,一种面向用户查询意图的汉语句子相似度分层计算方法,包括以下步骤:
S1、采用去除句末标点的编辑距离句子相似度算法对数据集进行相似度计算,确定一部分满足阈值的句子为相似句子;
S2、采用基于关键词特征和语义特征的句子相似度算法,对数据集中的非相似句子进行相似度计算,从而再次确定一部分满足阈值的句子为相似句子;
S3、采用面向用户意图的句子相似度算法,对数据集中的非相似句子进行句子相似度计算,确定一部分满足阈值的句子为相似句子,至此得到数据集中的所有相似句子。
优选地,在步骤S1中,所述去除句末标点的编辑距离句子相似度算法具体包括:计算两个句子的相似度时,忽略其句末的标点符号,将去除句末标点的句子按照基于字符的编辑距离句子相似度算法计算其句子的编辑距离,再根据设定的阈值判定相似句子。
优选地,在步骤S2中,所述基于关键词特征和语义特征的句子相似度算法具体包括:采用关键词特征,将句子转换成关键词列表形式,再兼顾同义词特征、否定词特征,总结分析经过对比消解后的剩余关键词词数与已标注的相似句子对之间呈现的规律,最后判定符合规律的句子是否句子相似。
优选地,在步骤S2中,所述剩余关键词是指一个句子经过分词、去除停用词、修改错别字、大写字母转换成小写字母、中文数字转换成阿拉伯数字、关键词对比消减、同义词对比消减和否定词对比消减后余留的关键词集合。
优选地,在步骤S2中,所述剩余关键词词数与已标注的相似句子对之间的关系具体包括以下规则:
规则1:经过剩余关键词列表计算后,若用户提问句子与问题集中某一句子的剩余关键词词数之和小于等于1,且剩余关键词中不包含否定词时,则用户提问句子与问题集中的某一个句子是相似的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;张仰森,未经北京信息科技大学;张仰森许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410341855.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种样本属性的动态分布数据获取方法及系统
- 下一篇:一种新型的计算器