[发明专利]检测并重构固定格式文档中的从右到左文本方向、连字和变音符号在审
| 申请号: | 201480014083.8 | 申请日: | 2014-02-28 |
| 公开(公告)号: | CN105144147A | 公开(公告)日: | 2015-12-09 |
| 发明(设计)人: | M·舍舒姆;D·扎里克;M·安提克;M·拉斯科维克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 罗婷婷 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 检测 并重 固定 格式 文档 中的 右到左 文本 方向 变音 符号 | ||
1.一种检测固定格式文档的文本方向以用于重构流格式文档的方法;所述方法包括:
将所述固定格式文档分成一个或多个文本串;
确定所述一个或多个文本串中的每一者的文本串方向性;
根据为所述一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个文本串中的每一者;以及
将所述固定格式文档重构成流格式文档,其中重构在所述流格式文档中的所述一个或多个文本串中的每一者都是根据为所述一个或多个文本串中的每一者指定的指定文本串方向性来重构的。
2.如权利要求1所述的方法,其特征在于,根据为所述一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个文本串中的每一者包括基于从右到左的方向性或基于从左到右的方向性来收集所述一个或多个文本串中的每一者。
3.如权利要求1所述的方法,其特征在于,在将所述一个或多个行分成一个或多个文本串后,将所述固定格式文档分成一个或多个段落。
4.如权利要求3所述的方法,其特征在于,进一步包括确定所述一个或多个段落中的每一者的文本方向性。
5.如权利要求1所述的方法,其特征在于,所述一个或多个文本串包括一个或多个连字。
6.如权利要求1所述的方法,其特征在于,进一步包括:
确定所述固定格式文档中的一个或多个章节的文本方向性,所述章节包含一个或多个文本串列;以及
其中根据为所述一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个文本串中的每一者包括根据为所述一个或多个文本串列中包含的一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个章节中包含的一个或多个文本串中的每一者。
7.如权利要求1所述的方法,其特征在于,
将所述固定格式文档分成一个或多个文本串包括解析所述固定格式文档,以得到所述固定格式文档中包含的一个或多个变音符号;以及
其中根据为所述一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个文本串中的每一者包括收集与所收集的文本串中的任一者相关联的任何变音符号。
8.如权利要求7所述的方法,其特征在于,对于从所述固定格式文档中解析出的每一个变音符号,如果包含给定变音符号的边界框与包含载体字符或载体符号的边界框水平地重叠,则在将所述固定格式文档重构成流格式文档时,指定将所述给定变音符号与所述载体字符或载体符号重构在一起,其中向所述给定变音符号分配了所述载体字符或载体符号的文本方向性。
9.一种包含计算机可执行指令的计算机可读介质,所述计算机可执行指令在被计算机执行时执行一种检测固定格式文档的文本方向以用于重构流格式文档的方法;所述方法包括:
解析固定格式文档以得到包含一个或多个文本串的一个或多个段落;
确定所述一个或多个文本串中的每一者的文本串方向性;
解析所述固定格式文档以得到所述固定格式文档中的一个或多个章节,所述章节包含一个或多个文本串列;
根据基于从右到左的方向性或基于从左到右的方向性为所述一个或多个文本串中的每一者确定的文本串方向性来收集所述一个或多个段落中以及所述一个或多个文本串列中包含的一个或多个文本串中的每一者;以及
将所述固定格式文档重构成流格式文档,其中重构在所述流格式文档中的所述一个或多个文本串中的每一者都是根据为所述一个或多个文本串中的每一者指定的指定文本串方向性来重构的。
10.一种检测固定格式文档的文本方向以用于重构流格式文档的系统;所述系统包括:
一个或多个处理器;以及
耦合到所述一个或多个处理器的存储器,所述一个或多个处理器能用于:
将构成固定格式文档的一个或多个行分成一个或多个文本串,所述一个或多个文本串包括字符、符号、空格、单词、连字、与字符或符号或其组合相关联的变音符号中的一个或多个;
为所述一个或多个文本串中的每一者确定从右向左的文本串方向性或从左到右的文本串方向性;
根据为所述一个或多个文本串中的每一者确定的从右到左的文本串方向性或从左到右的文本串方向性来收集所述一个或多个文本串中的每一者;以及
将所述固定格式文档重构成流格式文档,其中重构在所述流格式文档中的所述一个或多个文本串中的每一者都是根据为所述一个或多个文本串中的每一者指定的指定文本串方向性来重构的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480014083.8/1.html,转载请声明来源钻瓜专利网。





