[发明专利]基于字符变换和无监督网络数据的文本消息规格化方法和系统无效
申请号: | 201280036746.7 | 申请日: | 2012-05-21 |
公开(公告)号: | CN103703459A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | F·刘;F·翁 | 申请(专利权)人: | 罗伯特·博世有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 张晰;王英 |
地址: | 德国斯*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 字符 变换 监督 网络 数据 文本 消息 规格化 方法 系统 | ||
技术领域
本公开总体上涉及自然语言处理和文本规格化领域,更具体而言,涉及在语音合成或其他分析之前使文本规格化的系统和方法。
背景技术
移动通信领域近年来得到了迅猛发展。由于各种无线网络的地理覆盖和带宽的增长,包括蜂窝电话、智能电话、平板电脑、便携式媒体播放器和笔记本计算装置在内的各种各样的便携式电子装置已经使用户能够从各种各样的地点通信以及接入数据网络。这些便携式电子装置支持各种各样的通信类型,包括音频、视频和基于文本的通信。用于基于文本的通信的便携式电子装置通常包括诸如LCD或OLED屏幕的显示屏,其可以显示文本以供阅读。
近年来,已经涌现了各种基于文本的通信。各种文本通信系统包括但不限于:短消息服务(SMS)、包括Facebook和Twitter在内的各种社交网络服务、即时消息传送服务、以及常规电子邮件服务。很多采用文本通信服务发送的文本消息都具有相对较短的长度。诸如SMS的一些文本消息传送系统存在技术限制,其要求消息短于某一长度,例如,160个字符。甚至对于不强制施加消息长度限制的消息传送服务而言,很多便携式电子装置所提供的输入设施,例如,实际和虚拟键盘,也倾向于使人感到输入大量的文本是很繁冗的。此外,诸如青少年的移动消息器装置的用户经常采用不能被识别为任何语言的规范词语的缩写或者俚语词汇来压缩消息。例如,诸如“BRB”的词语代表诸如“be right back”的较长短语。用户还可能采用标准词语的非标准拼写,例如,采用非标准的“kuz”替代词语“cause”。替代的拼写和词语形式不同于简单的错拼,现有的拼写检查系统不具备将替代词语形式标准化为能在词典中找到的标准词语的功能。俚语词汇和替代拼写依赖于接收文本消息的另一人的知识,从而从所述文本解释出适当的含义。
尽管发送和接收文本消息的普及性已经提高了,但是很多情况还是妨碍接收方以及时的方式阅读文本消息。在一个例子中,机动车辆的驾驶员在操作车辆时如果尝试阅读文本消息就可能分散注意力。在其他情况下,便携式电子装置的用户可能不具有立即就能拿到装置并从装置的屏幕上阅读消息的条件。一些用户可能视力减弱,因而从移动装置的屏幕上读取文本存在困难。为了缓解这些问题,一些便携式电子装置以及其他系统包括语音合成系统。将所述语音合成系统配置为生成文本信息的语音版本,从而使接收文本消息的人不用必须阅读消息。合成的音频消息使人能够听到一条或多条文本消息的内容,同时避免人在执行另一项活动时(例如,在操作车辆时)分心。
尽管语音合成系统在复述已知语言的文本时有用,但是在处理包括俚语、缩写以及文本消息中采用的其他非标准词语时语音合成变得更有问题。语音合成系统依赖于将已知词语映射至用于语言合成的音频模型的模型。在合成未知词语时,很多语音合成系统退而寻求词语的不完全的语音近似,或者逐字母拼出词语。在这些条件下,语音合成系统的输出将不遵循预期的正常语音流,并且语音合成系统可能变得令人分心。在文本消息包括非标准的拼写和词语形式时,其他文本处理系统,包括语言转化系统和自然语言处理系统可能具有类似的问题。
尽管现有的词典可以提供常用俚语词汇和缩写的转化,但是文本消息中采用的对标准词语的替代拼写和构造所具有的多样性太过宽泛,以至于由标准来源编辑的词典无法包容。此外,便携式电子装置用户不断地形成标准词典中找不到的有关现有词语的新的变型。此外,从标准词语映射至其非标准变型是多对多的,也就是说,非标准变型可能对应于不同的标准词语形式,反之亦然。因此,用于预测标准词语的变型从而能够将替代词语形式标准化为标准的词典词语的系统和方法将是有利的。
发明内容
在一个实施例中,开发出一种用于根据存储在存储器内的标准标记生成非标准标记的方法。所述方法包括从存储在存储器内的多个标准标记中选择标准标记,所选择的标记具有多个输入字符;针对所述多个输入字符中的每一输入字符,根据随机场模型从多项预定操作中选择操作;在每一输入字符上执行所选择的操作,以生成不同于所述多个标准标记中的每一标记的输出标记;以及将输出标记与所选择的标记相关联地存储到存储器内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280036746.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:减压式防漏油结构
- 下一篇:非晶合金干式变压器低压绕线模具