[发明专利]一种排版方法和系统有效
申请号: | 201710013265.9 | 申请日: | 2017-01-09 |
公开(公告)号: | CN106874242B | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 兰涛 | 申请(专利权)人: | 广西英腾教育科技股份有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/103;G06F40/189 |
代理公司: | 11212 北京轻创知识产权代理有限公司 | 代理人: | 杨立;付倩 |
地址: | 545006 广西壮族自治区柳州市柳*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 排版 方法 系统 | ||
本发明提供一种排版方法和系统,方法包括:根据排版要求将待处理的文本拆分成单字符或字符串;对单字符或字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;将判断得到的各个标识符进行存储;遍历各个标识符来对单字符进行替换处理或遍历各个标识符来对字符串之间的文本进行合并处理。本发明能够根据排版要求将文档中的文本拆分成单字符或字符串的形式,再利用设置的正则表达式对单字符或字符串进行判定,用标识符进行标记,再根据标识符对文本内容进行重新排版,极大的减少不规范的情况,也减轻了录入员的工作压力和难度。
技术领域
本发明主要涉及数字排版技术领域,具体涉及一种排版方法和系统。
背景技术
扫描文档内容进行二次排版时,扫描到的原始内容格式存在着不规范的情况,不符合数字化排版的要求,例如:1、行后空格;2、题干、选项的行前空格;3、多余回车符。
目前,在纸质文档转化成数字文档时,录入者扫描纸质文档成数字化文档后,由于存在上述不规范情况,一般的处理方式是人工逐一进行规范排版处理,因此需要耗费大量时间精力去完成这件事,效率低且容易出错,而现有的一些自动排版方法处理的“不规范”情况比较单一且效果不佳。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种排版方法和系统,能够根据排版要求及设置的正则表达式对文档中不规范的情况进行排版,大大减轻录入员的工作压力和难度。
本发明解决上述技术问题的技术方案如下:一种排版方法,包括如下步骤:
根据排版要求将待处理的文本拆分成单字符或字符串;
将拆分的单字符用第一数组进行存储或将拆分的字符串用第二数组进行存储;
对第一数组中的单字符或第二数据组中的字符串进行索引,索引时判断单字符或字符串是否符合设置的正则表达式,并将判断结果分别用设置的标识符标记;
将判断第一数组得到的各个标识符用第三数组进行存储或将判断第二数组得到的各个标识符用第四数组进行存储;
遍历第三数组中的各个标识符来对单字符进行替换处理或遍历第四数组中的各个标识符来对字符串之间的文本进行合并处理。
本发明的有益效果是:能够根据排版要求将文档中的文本拆分成单字符或字符串的形式,再利用设置的正则表达式对单字符或字符串进行判定,用标识符进行标记,再根据标识符对文本内容进行重新排版,极大的减少不规范的情况,也减轻了录入员的工作压力和难度。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述索引时判断单字符是否符合设置的正则表达式,将判断结果分别用设置的标识符标记的具体方法为:
预先设置第一正则表达式,并预先设置标识符:标识符An和标识符0n;
对第一数组中的单字符进行索引时,先判断当前索引的单字符是否为空字符,如果该单字符是空字符再判断该单字符的前一个索引的单字符与后一个索引的单字符是否符合设置的第一正则表达式,如果前一个索引的单字符与后一个索引的单字符均不符合第一正则表达式则用标识符0n标记该单字符,否则标记为An。
进一步,进行替换处理的具体方法为:将标记有标识符0n的单字符用预设的占位符进行替换处理。
进一步,判断当前索引的单字符是否为空字符的具体方法为:判断单字符的长度是否为0,如果为0则为空字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西英腾教育科技股份有限公司,未经广西英腾教育科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710013265.9/2.html,转载请声明来源钻瓜专利网。