[发明专利]交易信息多语机器翻译子系统的翻译方法有效
申请号: | 201810481052.3 | 申请日: | 2016-06-28 |
公开(公告)号: | CN108664477B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 张俊星;贺建军 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06Q30/06;G06F40/56 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交易 信息 机器翻译 子系统 翻译 方法 | ||
1.一种交易信息多语机器翻译子系统的翻译方法,其特征在于:包括用于翻译商品属性信息的属性信息多语机器翻译子系统、用于翻译商品的评论信息的评论信息多语机器翻译子系统、用于翻译商品的交易信息的交易信息多语机器翻译子系统,且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进行相应翻译,所述汉英蒙藏维多语平行语料库基于电子词典和双语网页来构建;先读取商品的交易信息,在商品信息的汉英蒙藏维多语平行语料库中检索是否存在该交易信息,如果存在该交易信息,则直接根据汉英蒙藏维多平行语料库给出该交易信息的多语言翻译结果,如果不存在,则说明该交易信息为未登录词,采用基于音译的机器翻译方法直接将其翻译成其他语言,通过各中文电子商务平台获取待翻译的中文商品信息,利用双语词典对部分商品信息进行翻译;且将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为特征信息,利用支持向量机提取候选平行网页,再对网页进行语句切分、对齐、整理的操作,获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,完成多语平行语料库的构建,包括属性信息多语机器翻译系统、评论信息多语机器翻译系统和交易信息多语机器翻译系统三个子系统,共涉及到一个多语平行语料库和三种机器翻译方法,即商品信息的汉英蒙藏维多语平行语料库、基于规则的未登录词多语机器翻译方法、基于音译的未登录词机器翻译方法和商品评论的多语言摘要生成方法;
属性信息的汉英蒙藏维多语机器翻译子系统的翻译流程为,先读取商品的每一条属性名或者属性值,在商品信息的汉英蒙藏维多语平行语料库中检索看是否存在,如果存在则直接根据平行语料库给出该属性名或属性值的多语言翻译结果,如果不存在,则说明是未登录词,利用某种分词方法将其拆分成更小的平行语料库中存在的命名实体,然后利用基于规则的机器翻译方法将其翻译成各种语言,如果该属性名或者属性值不能拆分成已经存在的小的命名实体,则采用基于音译的机器翻译方法直接将其翻译成其他语言;
对于商品的评论信息翻译子系统的评论信息翻译流程为,对于商品的每一条评论,先利用某种评论要素抽取方法,抽取评论信息中的商品属性-评价词对以及客户的情感倾向性,然后根据汉英蒙藏维多语平行语料库将属性-评价词对翻译成不同的语言,再在每种语言环境下根据属性-评价词对和客户的情感倾向性利用某种摘要生成方法生成各种语言版本的商品评论摘要,从而实现对商品评论信息的多语言翻译;
对于交易信息翻译子系统采用基于音译的多语言机器翻译方法来实现信息的翻译;
多语平行语料库的构建:将基于电子词典和双语网页来构建商品信息的多语平行语料库,具体流程为:先通过各种中文电子商务平台获取待翻译的中文商品信息,然后利用双语词典对部分商品信息进行翻译,借助基于互联网的双语平行语句挖掘方法将双语词典不能翻译的中文商品信息翻译成其他语言,具体的思路是现将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为特征信息,利用支持向量机来提取候选平行网页,再对网页进行语句切分、对齐、整理操作,最后获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,从而完成多语平行语料库的构建;
通过商品评论要素的抽取方法来提取商品的属性-评价词对和情感倾向性这两种评论要素,首先,通过与人工词典直接匹配的方法对固定格式评论信息中的属性-评论词对进行抽取;然后,对于自由评论信息,利用基于词性关系模板的商品属性词和评价词同步抽取算法来抽取属性-评论词对,即先通过有监督的序列规则挖掘算法从训练样本中挖掘出词性依存关系模式,并对这些模式进行置信度评分,再利用模板在评论信息中抽取属性-评价词对;最后,在得到评论信息中的属性-评价词对后,利用基于情感词典的方法分析评论信息的情感倾向性,即先通过一个情感词典对评价词的情感倾向性做出判断,再根据正负评价词在评论句中的数量优势来判断评论句的情感倾向;
商品评论摘要的生成方法:分别从商品层次和评论层次来组织商品评论摘要;商品层次的评论摘要是指对同一商品下的所有评论进行分类汇总生成一个用户对该商品的总体评价,使读者能够在统计层面对商品的整体和特定属性有一个全面的了解,商品层次的评论摘要包括两部分内容,第一部分是客户对该商品的整体评分,对该商品的各条评论的情感倾向性进行统计,通过各种情感的统计数字来计算一个商品的总体得分,第二部分是用户对商品的各种属性的总体评价,思路是先对该商品评论中的属性-评价词对进行聚类,根据聚类结果,将客户对商品属性的评论以列表形式展示出来,同时附上各属性下正负评论的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810481052.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于互联网的新闻翻译的系统及翻译方法
- 下一篇:目标物检索方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置