[发明专利]适用于机器学习的采集系统在审
| 申请号: | 201710860927.6 | 申请日: | 2017-09-21 |
| 公开(公告)号: | CN107562739A | 公开(公告)日: | 2018-01-09 |
| 发明(设计)人: | 曾传德 | 申请(专利权)人: | 曾传德 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610000 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 适用于 机器 学习 采集 系统 | ||
技术领域
本发明涉及计算机技术领域,具体涉及适用于机器学习的采集系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
虽然机器翻译通过机器学习可以达到很好的翻译水平,但是机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习。
发明内容
本发明所要解决的技术问题是现有的机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习,目的在于提供适用于机器学习的采集系统,解决上述问题。
本发明通过下述技术方案实现:
适用于机器学习的采集系统,包括:用于储存翻译原文和与翻译原文对应的翻译译文的翻译数据库;用于选取样本原文的样本选取模块;用于在翻译数据库中选取与样本原文最相似的翻译原文的对比模块;用于公开发布样本原文和对比模块选取出的与样本原文最相似的翻译原文的公开平台;所述公开平台还用于公开公开征集样本原文对应的样本译文和翻译原文对应的翻译译文;同一应征者必须完成一份样本译文和翻译译文;所述对比模块还用于将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则对比模块将该应征者完成的样本译文和原文样本放入翻译数据库。
现有技术中,虽然机器翻译通过机器学习可以达到很好的翻译水平,但是机器学习需要大量的翻译样本,获取大量的翻译样本需要很高的人力成本,并且获取的翻译样本质量参差不齐,不适合机器学习。本发明应用时,样本选取模块选取样本原文,对比模块在翻译数据库中选取与样本原文最相似的翻译原文,然后利用公开平台公布样本原文和对比模块选取出的与样本原文最相似的翻译原文;通过公开平台上的应征者提供样本原文对应的译文,从而降低成本,而将同一应征者完成的样本译文和翻译译文同时提取出来,并将翻译译文与翻译数据库中的翻译译文进行对比;如果应征者完成的翻译译文与翻译数据库中的翻译译文的相似度大于通过阈值,则将该应征者完成的样本译文和原文样本放入翻译数据库。当应征者完成的翻译译文与翻译数据库中的翻译译文的相似时,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。
进一步的,所述对比模块对比两个句子是否相似时,解析两个句子的句法树,并得出两个句子的句法树之间的纳真值TP,误报值FP,去真值FN;所述对比模块通过下式得出两个句子的相似值:上文所述TP为纳真值,FP为误报值,FN为去真值,R为召回率,P为结构准确率,F为相似值。
本发明应用时,通过这种方式来分析相似度,可以有效的分析出最相似的翻译原文,从而提高了样本译文获取的质量。
进一步的,所述翻译数据库还用于对翻译原文和与翻译译文进行机器学习。
进一步的,所述公开平台还用于当应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于通过阈值,且大于封禁阈值,再次发送样本原文和翻译原文给该应征者。
进一步的,所述公开平台还用于当应征者完成的翻译译文与翻译数据库中的翻译译文的相似度小于封禁阈值,将该应征者封禁。
本发明应用时,将相似度小于封禁阈值的应征者可以视为不具备样本原文翻译的能力,从而将其封禁,提高了样本译文获取的质量。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明适用于机器学习的采集系统,由于的翻译原文与样本原文相似,则可以认为该应征者可以有效的完成样本原文的翻译工作,从而保证了翻译样本的质量,非常适合机器学习。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾传德,未经曾传德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710860927.6/2.html,转载请声明来源钻瓜专利网。





