[发明专利]一种英文文本格式优化方法及装置有效
申请号: | 201410177826.5 | 申请日: | 2014-04-29 |
公开(公告)号: | CN103942182B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 王云芝;刘水;杨宇航 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英文 文本 格式 优化 方法 装置 | ||
技术领域
本发明涉及数字文档处理技术领域,尤其涉及一种英文文本格式优化方法及装置。
背景技术
随着信息技术的发展,很多在线阅读和电子阅读产品的使用越来越广泛,用户通过PC上的客户端或者浏览器阅读在线文本,或者通过手机、平板等终端设备随时随地地阅读书或期刊的电子文本,已经成为广泛且普遍的阅读模式。
然而很多阅读资源原本格式不规范,特别是英文文本,经常会出现段落划分上的错误,例如上行标点未结束,下行开头单词未大写等。直接通过电子阅读产品对这些文本进行阅读时受格式影响较大,用户的阅读体验不佳。
现有的解决该问题的方法,多为发布文本阅读资源前人工检查并调整格式。一方面,对于无标记的普通文本而言,人工处理的人力和时间耗费大,效率极低;另一方面,现有的自动格式判断和重排技术,多为针对带标记的文本如xml(Extensible Markup Language,可扩展标记语言)等,或者针对某种固定格式的模板文本,不能普遍适用于没有格式标记的普通文本,整个过程耗时耗力,效率极低。
发明内容
有鉴于此,本发明实施例提供一种英文文本格式优化方法及装置,能提高对英文阅读资源进行格式优化的效率,能节约成本。
第一方面,本发明实施例提供了一种英文文本格式优化方法,包括:
如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
第二方面,本发明实施例还提供了一种英文文本格式优化装置,包括:
行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
本发明实施例提出的技术方案的有益技术效果是:
本发明实施例的技术方案利用了英文文本的特征对行间格式进行修正和标题的确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明实施例一所述的英文文本格式行间修正方法流程图;
图2是本发明实施例一所述的方式二所述的确定标题行的方法流程图;
图3是本发明实施例二所述的英文文本格式优化装置的结构框图;
图4是本发明实施例二所述的第一标题行确定单元的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
本实施例所述的英文文本格式优化方法,可适用于使用计算机对格式不够规范的英文电子阅读资源自动进行格式优化处理的情况,该方法可以由具有程序运行功能的计算机来执行。该方法包括对英文文本进行行间修正的方法和确定标题行的方法。
需要说明的是,上述行间修正的方法和确定标题行的方法可以单独采用,也可以结合采用,顺序不限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410177826.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高速铝翅片滚带机用带料输送装置
- 下一篇:无缝钢管的冲压代替铆接模具