[发明专利]基于线性回归适用于多语种的句子相似度获取方法及系统在审
申请号: | 201710187215.2 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107066443A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 海同舟;李明;王兴强;彭成超 | 申请(专利权)人: | 成都优译信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 冯龙 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 线性 回归 适用于 语种 句子 相似 获取 方法 系统 | ||
1.基于线性回归适用于多语种的句子相似度获取方法,其特征在于,包括以下步骤:
S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn;
S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;
S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;
所述线性回归公式如下:
上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。
2.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的结构相似特征值fi;其计算步骤如下:
S111:解析两个句子并得到两个与句子相对应的句法树;
S112:根据两个句法树得出两个句法树之间的结构检测值TP、FP和FN;
S113:根据结构检测值TP、FP和FN由以下公式计算两个句子的语法相似特征值fi:
上文所述TP为结构纳真值,FP为结构误报值,FN为结构去真值,R为结构召回率,P为结构准确率,fi为结构相似特征值。
3.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的词性相似特征值fi;其计算步骤如下:
S121:解析两个句子并得到两个与句子相对应的句法树;
S122:将两个句子分为参考句和原句;所述参考句为仅在本次计算词性相似特征值fi时使用的句子;所述原句为除本次外,还需要与其他句子计算词性相似特征值fi的句子;根据两个句法树的词性分布得出从一个句子修改成另一个句子所需要的最小步数W;
S123:通过以下公式计算两个句子的词性相似特征值fi:
上文所述W为从一个句子修改成另一个句子所需要的最小步数,L为参考句的长度,fi为词性相似特征值。
4.根据权利要求3所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述从一个句子修改成另一个句子所需要的最小步数W采用莱温斯坦距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710187215.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:情绪值的检测方法、装置及电子设备
- 下一篇:基于多轮交互的语料生成方法和装置