[发明专利]翻译需求识别方法及系统有效
申请号: | 201110391077.2 | 申请日: | 2011-11-30 |
公开(公告)号: | CN103136192A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 马艳军;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 需求 识别 方法 系统 | ||
1.一种翻译需求识别方法,其特征在于,包括:
获取网络平台中的热门话题的主题词条;
利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,其中
所述D1为:判断热门话题中主题词条的关键词是否包含目标语言的词项、音译词词项或者预设关键词列表中的词项;
所述D2为:将热门话题的主题词条翻译成目标语言对应的主题词条译文,在目标语言的网络平台中搜索与该主题词条译文所对应话题类别的文本信息,并统计搜索到的文本信息的数量是否超过预设阈值;
所述D3为:对每个热门话题通过用户调查进行翻译需求征集,根据用户反馈的标注信息进行判断。
3.根据权利要求1所述的方法,其特征在于,所述利用D1判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括以下步骤:
S101、判断热门话题中主题词条的关键词是否包含目标语言的词项,如果包含,则进入S104,否则,进入S102;
S102、判断热门话题中主题词条的关键词是否包含目标语言的音译词词项,如果包含,则进入S104,否则,进入S103;
S103、将热门话题中主题词条的关键词与预设的关键词列表进行匹配,并计算匹配度,判断匹配度是否满足预设要求,如果满足,则进入S104,否则,进入S105;
S104、识别为有翻译需求;
S105、识别为无翻译需求。
4.根据权利要求1所述的方法,其特征在于,所述利用D2判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,如果搜索到的文本信息数量超过预设阈值,则识别为有翻译需求。
5.根据权利要求1所述的方法,其特征在于,所述利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,统计标注为有翻译需求的用户数,当用户数超过预设阈值时,则识别为有翻译需求。
6.根据权利要求1所述的方法,其特征在于,所述利用D3判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,根据用户反馈的标注信息,采用机器分类方法进行分类,分为有翻译需求和无翻译需求两个类别,具体包括以下步骤:
S401、获取用户标注的数据信息;
S402、根据用户标注的数据,选取热门话题的分类特征,并对热门话题进行机器学习训练得到分类器;
S403、利用训练好的分类器对任意热门话题进行自动分类,分为有翻译需求和无翻译需求两个类别。
7.根据权利要求6所述的方法,其特征在于,所述热门话题的分类特征包括:
热门话题的关键词、所述关键词的同义词、所述关键词的译文以及热门话题所对应话题类别的文本信息中的高频词。
8.根据权利要求1所述的方法,其特征在于,所述利用D1-D3中至少一种识别方法,判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,包括:利用D1、D2和D3结合进行判断该热门话题的主题词条所对应话题类别的文本信息是否有翻译为目标语言的需求,具体包括:
根据所述D1、D2和D3的识别结果,采用投票的方式进行判断,将至少有两种策略的识别结果为有翻译需求的热门话题,判断为有翻译需求;
或者,先为所述D1、D2和D3分配不同的权重,再根据所述D1、D2和D3的识别结果,采用加权投票的方式进行判断,计算识别结果的投票权重,将得到的投票权重超过权重阈值的热门话题,判断为有翻译需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110391077.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动清洗喷头的喷码机
- 下一篇:压凸、烫金一次完成模具