[发明专利]文件识别方法、装置、服务器和计算机存储介质有效
申请号: | 201611113449.4 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106776552B | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 胡元琪 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;陈翠 |
地址: | 100124 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样式 计算机存储介质 差异信息 统一处理 文件识别 服务器 资源占用率 存储空间 段落信息 膨胀问题 样式信息 存储量 中文字 解析 | ||
本发明公开了一种文件识别方法、装置、服务器和计算机存储介质。其中,方法包括:对文件进行初步识别,得到文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。利用本发明的方案,将段落内文字的样式统一处理成一种样式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式信息的存储量,节省了存储空间,降低了资源占用率。
技术领域
本发明涉及互联网技术领域,具体涉及一种文件识别方法、装置、服务 器和计算机存储介质。
背景技术
随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种 各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。
然而,随着技术发展,盗版越来越猖獗,为了防止盗版,很多文件在排 版时,会对文字的样式进行不同的设置,例如,一段文字中,设置多种字号 和字体,以增加文件再次排版的难度,然而,很多正规渠道得到的文件也是 类似文件,这样就会造成样式信息膨胀,而且还需要更大的存储空间来存储 这些样式信息,占用资源。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的文件识别方法、文件识别装置、服务器和计算机存储介质。
根据本发明的一个方面,提供了一种文件识别方法,其包括:
对文件进行初步识别,得到文件包含的文字和段落信息;
针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及 样式差异信息;
根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
根据本发明的另一方面,提供了一种文件识别装置,其包括:
识别模块,适于对文件进行初步识别,得到文件包含的文字和段落信息;
解析模块,适于针对每一个段落,对段落内文字进行解析,得到段落内 文字的样式以及样式差异信息;
处理模块,适于根据段落内文字的样式差异信息,对段落内文字进行样 式统一处理。
根据本发明的又一方面,提供了一种服务器,包括:处理器、存储器、 通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间 的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述文件 识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储 有至少一可执行指令,可执行指令使处理器执行如上述文件识别方法对应的 操作。
根据本发明提供的方案,对文件进行初步识别,得到文件包含的文字和 段落信息,针对每一个段落,对段落内文字进行解析,得到段落内文字的样 式以及样式差异信息,根据段落内文字的样式差异信息,对段落内文字进行 样式统一处理。利用本发明的方案,将段落内文字的样式统一处理成一种样 式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式 信息的存储量,节省了存储空间,降低了资源占用率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611113449.4/2.html,转载请声明来源钻瓜专利网。