[发明专利]基于线性回归适用于多语种的句子相似度获取方法及系统在审

专利信息
申请号: 201710187215.2 申请日: 2017-03-27
公开(公告)号: CN107066443A 公开(公告)日: 2017-08-18
发明(设计)人: 海同舟;李明;王兴强;彭成超 申请(专利权)人: 成都优译信息技术股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 成都行之专利代理事务所(普通合伙)51220 代理人: 冯龙
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 线性 回归 适用于 语种 句子 相似 获取 方法 系统
【权利要求书】:

1.基于线性回归适用于多语种的句子相似度获取方法,其特征在于,包括以下步骤:

S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn

S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn

S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs

所述线性回归公式如下:

上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。

2.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的结构相似特征值fi;其计算步骤如下:

S111:解析两个句子并得到两个与句子相对应的句法树;

S112:根据两个句法树得出两个句法树之间的结构检测值TP、FP和FN;

S113:根据结构检测值TP、FP和FN由以下公式计算两个句子的语法相似特征值fi

R=TPTP+FN;P=TPTP+FP;fi=2PRP+R;]]>

上文所述TP为结构纳真值,FP为结构误报值,FN为结构去真值,R为结构召回率,P为结构准确率,fi为结构相似特征值。

3.根据权利要求1所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述两个及以上相似特征值包括通过计算得到的两个句子的词性相似特征值fi;其计算步骤如下:

S121:解析两个句子并得到两个与句子相对应的句法树;

S122:将两个句子分为参考句和原句;所述参考句为仅在本次计算词性相似特征值fi时使用的句子;所述原句为除本次外,还需要与其他句子计算词性相似特征值fi的句子;根据两个句法树的词性分布得出从一个句子修改成另一个句子所需要的最小步数W;

S123:通过以下公式计算两个句子的词性相似特征值fi

fi=1-WL;]]>

上文所述W为从一个句子修改成另一个句子所需要的最小步数,L为参考句的长度,fi为词性相似特征值。

4.根据权利要求3所述的基于线性回归适用于多语种的句子相似度获取方法,其特征在于,所述从一个句子修改成另一个句子所需要的最小步数W采用莱温斯坦距离。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710187215.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top