[发明专利]基于线性回归适用于多语种的句子相似度获取方法及系统在审

专利信息
申请号: 201710187215.2 申请日: 2017-03-27
公开(公告)号: CN107066443A 公开(公告)日: 2017-08-18
发明(设计)人: 海同舟;李明;王兴强;彭成超 申请(专利权)人: 成都优译信息技术股份有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 成都行之专利代理事务所(普通合伙)51220 代理人: 冯龙
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 线性 回归 适用于 语种 句子 相似 获取 方法 系统
【说明书】:

技术领域

本发明涉及计算机翻译技术领域,具体涉及基于线性回归适用于多语种的句子相似度获取方法及系统。

背景技术

随着经济全球化及国际互联网的飞速发展,自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域,人们需要对语言文字进行翻译时,需要采用人工翻译,耗时耗力,而随着计算机软硬件技术的高速发展,计算机翻译及计算机辅助翻译得到了越来越广泛的应用。

对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题,传统的对比方法多采用单一层次上的对比,比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等,但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比,比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比,比如适用于新闻英语的对比方法不适用于口语英语的对比。

国家专利局专利号为CN201110303522.5的发明专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,该专利对句子相似度对比的方法采用了词汇差异的对比方法,这种方法适用于词汇差异明显的语言和场合,在对词汇差异不明显而句型差异明显的语言和场合,对比效果较差。

发明内容

本发明所要解决的技术问题是现有句子相似度对比方法不适用于多种语言与多种场合,目的在于提供基于线性回归适用于多语种的句子相似度获取方法及系统,解决上述问题。

本发明通过下述技术方案实现:

基于线性回归适用于多语种的句子相似度获取方法,包括以下步骤:S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn;S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。

现有技术中,对比句子相似度多采用单一层次上的对比,这种单一层次的句子相似度对比方法无法针对各种语言特点和各种场合用语做出合适的对比,比如适用于英语的对比方法不适用于汉语对比,适用于新闻英语的对比方法不适用于口语英语的对比。本发明应用时,先获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn,再根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;再将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。对于两个句子的相似特征值,可以选取但不限于结构相似特征值、词性相似特征值或词汇相似特征值,这三种相似特征值已经可以很好的对主流语言和主流场合用语进行句子相似度对比,但是如果有特殊的语言或者场合用语,比如土耳其语,还可以根据其特点加入词根相似特征值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710187215.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top