[发明专利]用于自动化文本校正的方法和系统在审

专利信息
申请号: 201410815655.4 申请日: 2011-09-23
公开(公告)号: CN104484319A 公开(公告)日: 2015-04-01
发明(设计)人: 丹尼尔·赫曼·理查德·戴梅尔;陆巍;黄伟道 申请(专利权)人: 新加坡国立大学
主分类号: G06F17/24 分类号: G06F17/24;G06F17/27
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 新加坡*** 国省代码: 新加坡;SG
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 自动化 文本 校正 方法 系统
【说明书】:

针对如下案件的分案申请:

申请日:2011-9-23

申请号2011800459619

发明名称:用于自动化文本校正的方法和系统

技术领域

本发明涉及用于自化化文本校正的方法和系统。

背景技术

文本校正通常是困难和耗时的。另外,通常编辑文本是昂贵的,特别是涉及翻译,因为编辑通常需要使用有技术和受过训练的工作人员。例如,编辑翻译可能需要由在两种或多种语言中具有高水平熟练度的工作人员来提供密集劳动。

自动化的翻译系统(例如某些在线翻译器)可以使翻译的劳动密集型的某些方面有所减轻,但是它们仍不能替代人工翻译员。特别地,自动化系统执行相对好的单词到单词翻译的工作,但是由于语法和标点的不精确性,句子的意义经常无法理解。

某些自动化文本编辑系统确实存在,但此类系统通常具有不精确性。另外,现有技术的自动化文本编辑系统可能需要相对大量的处理资源。

一些自动化文本编辑系统可能需要训练或配置以精确地编辑文本。例如,某些现有技术的系统可以使用学习文本(learner text)的加注释的语料库(annotated corpus)来被训练。替代地,一些现有技术的系统可以使用没有加注释的非学习文本的语料库来被训练。本领域普通技术人员可以认识学习文本和非学习文本之间的差异。

标准自动化语音识别(ASR)系统的输出通常由话语(utterance)构成,其中例如真实情况、句子边界和标点符号的重要语言和结构信息是不可获得的。语言和结构信息改进转录的语音文本的可读性,并且辅助进一步的下游处理,例如词性(POS)标注、语法分析、信息抽取和机器翻译。

现有技术的标点预测技术使用词汇和韵律学线索。然而,例如基音和中断持续时间的韵律学特征在没有原始未处理语音波形的情况下通常是不可获得的。在其中对于转录语音文本的自然语言处理(NLP)变成主要关注的一些场景中,语音韵律学信息可能无法轻易获得。在国际口语翻译研讨会(IWSLT)的评测活动中,仅提供人工转录或自动识别的语音文本,而原始未处理语音波形是不可获得的。

按照惯例,在语音识别期间执行标点插入。在一个例子中,在决策树框架内使用连同语言模型概率的韵律学特征。在另一个例子中,广播新闻领域中的插入包括针对任务的有限状态和多层感知器方法,其中韵律学和词汇信息被并入。在进一步的例子中,实施基于最大熵的标注方法,其在自发的英语对话中进行标点插入,包括使用词汇和韵律学特征。在另一个例子中,通过使用条件随机场(CRF)来执行句子边界检测。边界检测显示出对于基于隐马尔可夫模型(HMM)的在先方法的改进。

一些现有技术将句子边界检测和标点插入任务考虑为隐事件检测任务。例如,HMM可以描述单词和单词间事件上的联合分布,其中观察值是单词,并且单词/事件对被编码为隐状态。具体地,在该任务中,单词边界和标点符号被编码为单词间事件。训练短语涉及使用平滑技术来在所有观察单词和事件上训练n-gram语言模型。学习到的n-gram概率分数接着被用作HMM状态转换分数。在测试期间,在每个单词处的事件的后验概率利用使用前向-后向算法的动态编程来计算。最为可能的状态的序列因此形成给出加标点的句子的输出。此类的基于HMM的方法具有若干个缺陷。

首先,n-gram语言模型仅能够捕获围绕的上下文信息。然而,对于标点插入可能需要更长范围相关性的建模。例如,该方法不能够有效地捕获强烈的指示疑问句的初始短语“你想(would you)”和结束问号之间的长范围相关性。因此,在使用隐事件语言模型之外可以使用特殊的技术以便克服长范围相关性。

现有技术的例子包括重新排放或复制标点符号到句子的不同位置,使得它们显得更接近于指示的单词(例如,“多少钱”指示疑问句)。一个此类的技术建议在训练语言模型前将结尾的标点符号复制到每个句子的开始处。从经验上来说,该技术已经演示了其在英语中预测问号的有效性,因为用于英语疑问句的大多数指示的单词出现在问题的开始处。然而,此类的技术是专门设计的并且可能不能广泛地通常应用或应用于除英语以外的语言。进一步,在每次话语多个句子而没有在话语内清楚地加注释的句子边界的情况下,直接应用该方法可能会失败。

与此类方法关联的另一个缺陷是该方法对将要插入的标点符号和其围绕的单词之间的强相关性假定进行编码。因此,其缺乏鲁棒性来处理其中频繁出现噪声或词汇表外(OOV)单词的情形,例如在由ASR系统自动识别的文本中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡国立大学,未经新加坡国立大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410815655.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top