[发明专利]句子相似度计算方法及装置在审
| 申请号: | 201510536882.8 | 申请日: | 2015-08-27 |
| 公开(公告)号: | CN105183714A | 公开(公告)日: | 2015-12-23 |
| 发明(设计)人: | 唐聪;宋文略;杨晓昊;许轶;肖迪 | 申请(专利权)人: | 北京时代焦点国际教育咨询有限责任公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 相似 计算方法 装置 | ||
技术领域
本发明涉及自动批改技术领域,特别涉及一种句子相似度计算方法及装置。
背景技术
在英语作文自动批改中,有一项重要因素是计算作文的切题程度。现有的技术方法主要是通过作文各段的主旨句和作文的题目进行英文字符的匹配,出现相同英文字符的多少反映了主旨句和题目的近似程度的大小,从而反映了作文切题程度的大小。但统计相同英文字符不具有一般性,同一种语义可以用不同的词语来表达,因此现在更前沿的方法是建立近义词表,结合近义词表进行匹配。
但现有技术中,句子之间的匹配是把句子看作孤立词的单词来进行匹配的,没有考虑到句子结构,这导致对句子的语义的把握不准确。例如:英文句子“Mymotherhasacatwithfourlegs.”(句子1)和“Mymotherhasfourlegs.”(句子2)。如果不考虑句子结构,从孤立的单词来比较,两个句子只差两个重要单词“with”和“cat”,但是从实际语义来看,两个句子相差很大,导致句子相似度准确率过低。
发明内容
为提高计算句子相似度的准确率,本发明提供了一种句子相似度计算方法,所述方法包括:
获取各词语对应的向量;
对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
根据所述第一余弦距离确定所述两个句子之间的相似度。
其中,所述获取各词语对应的向量,进一步包括:
对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
其中,所述对自然语言语料通过词向量工具进行训练,进一步包括:
对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
其中,所述对待比较的两个句子进行句法分析,以获得所述两个句子组成各成分的词语,进一步包括:
对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
其中,所述根据所述第一余弦距离确定所述两个句子之间的相似度,进一步包括:
将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
本发明还公开了一种句子相似度计算装置,所述装置包括:
向量获取单元,用于获取各词语对应的向量;
句法分析单元,用于对待比较的两个句子进行句法分析,以获得所述两个句子中组成各成分的词语;
距离计算单元,用于计算所述两个句子中组成相应成分的词语对应向量之间的第一余弦距离;
相似度确定单元,用于根据所述第一余弦距离确定所述两个句子之间的相似度。
其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量。
其中,所述向量获取单元,进一步用于对自然语言语料通过词向量工具采用三层神经网络模型进行训练。
其中,所述句法分析单元,进一步用于对所述两个句子进行句法分析,以获得所述两个句子的句法树,所述句法树包括句子中组成各成分的词语。
其中,所述相似度确定单元,进一步用于将所述第一余弦距离进行加权平均,以获得第二余弦距离,将所述第二余弦距离作为所述两个句子之间的相似度。
本发明通过对句子进行句法分析,从结构方面把握句子的语义,从而更加准确地计算句子之间的近似度,另外,采用了基于神经网络模型的词向量来表示词语,从而更加准确计算词语之间的近似程度,而且摆脱了近义词字典的限制。
附图说明
图1是本发明一种实施方式的句子相似度计算方法的流程图;
图2是两个英语句子的句法树的结构示意图;
图3是本发明一种实施方式的句子相似度计算装置的结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施方式的句子相似度计算方法的流程图;参照图1,所述方法包括:
S101:获取各词语对应的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代焦点国际教育咨询有限责任公司,未经北京时代焦点国际教育咨询有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510536882.8/2.html,转载请声明来源钻瓜专利网。





