[发明专利]基于线性回归适用于多语种的句子相似度获取方法及系统在审
申请号: | 201710187215.2 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107066443A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 海同舟;李明;王兴强;彭成超 | 申请(专利权)人: | 成都优译信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 冯龙 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 线性 回归 适用于 语种 句子 相似 获取 方法 系统 | ||
技术领域
本发明涉及计算机翻译技术领域,具体涉及基于线性回归适用于多语种的句子相似度获取方法及系统。
背景技术
随着经济全球化及国际互联网的飞速发展,自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域,人们需要对语言文字进行翻译时,需要采用人工翻译,耗时耗力,而随着计算机软硬件技术的高速发展,计算机翻译及计算机辅助翻译得到了越来越广泛的应用。
对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题,传统的对比方法多采用单一层次上的对比,比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等,但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比,比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比,比如适用于新闻英语的对比方法不适用于口语英语的对比。
国家专利局专利号为CN201110303522.5的发明专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,该专利对句子相似度对比的方法采用了词汇差异的对比方法,这种方法适用于词汇差异明显的语言和场合,在对词汇差异不明显而句型差异明显的语言和场合,对比效果较差。
发明内容
本发明所要解决的技术问题是现有句子相似度对比方法不适用于多种语言与多种场合,目的在于提供基于线性回归适用于多语种的句子相似度获取方法及系统,解决上述问题。
本发明通过下述技术方案实现:
基于线性回归适用于多语种的句子相似度获取方法,包括以下步骤:S1:获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn;S2:根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;S3:将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。
现有技术中,对比句子相似度多采用单一层次上的对比,这种单一层次的句子相似度对比方法无法针对各种语言特点和各种场合用语做出合适的对比,比如适用于英语的对比方法不适用于汉语对比,适用于新闻英语的对比方法不适用于口语英语的对比。本发明应用时,先获取两个句子的两个及以上相似特征值fi;所述fi包括f1,f2,f3,…,fn,再根据两个句子所属语种和应用领域选取每个相似特征值对应的特征权值ωi;所述ωi包括ω1,ω2,ω3,…,ωn;再将两个及以上相似特征值根据每个相似特征值对应的特征权值进行线性回归,得出两个句子的复合相似特征值fs;所述线性回归公式如下:上文所述fi为相似特征值,ωi为与fi对应的特征权值,fs为复合相似特征值。对于两个句子的相似特征值,可以选取但不限于结构相似特征值、词性相似特征值或词汇相似特征值,这三种相似特征值已经可以很好的对主流语言和主流场合用语进行句子相似度对比,但是如果有特殊的语言或者场合用语,比如土耳其语,还可以根据其特点加入词根相似特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710187215.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:情绪值的检测方法、装置及电子设备
- 下一篇:基于多轮交互的语料生成方法和装置