[发明专利]文件识别方法、装置、服务器和计算机存储介质有效
申请号: | 201611113449.4 | 申请日: | 2016-12-06 |
公开(公告)号: | CN106776552B | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 胡元琪 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;陈翠 |
地址: | 100124 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文件识别方法、装置、服务器和计算机存储介质。其中,方法包括:对文件进行初步识别,得到文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。利用本发明的方案,将段落内文字的样式统一处理成一种样式,解决了文件中文字样式繁多而造成的样式膨胀问题,而且还减少了样式信息的存储量,节省了存储空间,降低了资源占用率。 | ||
搜索关键词: | 样式 计算机存储介质 差异信息 统一处理 文件识别 服务器 资源占用率 存储空间 段落信息 膨胀问题 样式信息 存储量 中文字 解析 | ||
【主权项】:
1.一种文件识别方法,其包括:对文件进行初步识别,得到所述文件包含的文字和段落信息;针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息,其中,文字的样式包括:文字的字号和字体;根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611113449.4/,转载请声明来源钻瓜专利网。