[发明专利]一种面向网络流传输的中文PDF文件文本内容提取方法有效

申请号：	201610161029.7	申请日：	2016-03-21
公开（公告）号：	CN105843783B	公开（公告）日：	2018-10-26
发明（设计）人：	王巍;杨武;苘大鹏;玄世昌;段茂涛	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/22	分类号：	G06F17/22;H04L12/823;H04L12/841
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于网络信息处理技术领域，尤其是一种面向网络流传输的中文PDF文件文本内容提取方法。本发明包括：步骤A：提供给应用层逻辑的接口；步骤B：对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取。本发明通过对网络数据流传输的中文PDF文件内容提取各个步骤进行分析及优化，达到了整个系统在时间效率，空间效率上最大可能的优化，同时，避免了时延抖动这样有害现象的产生，使得该方法能够在不影响系统整体运行效率得情况下，运行于大流量的监管系统中。
搜索关键词：	一种面向网络流传中文 pdf 文件文本内容提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向网络流传输的中文PDF文件文本内容提取方法，其特征在于，包括下列步骤：步骤A：提供给应用层逻辑的接口；步骤B：对应用层逻辑所解析的网络数据进行中文PDF文档文本内容提取；步骤B1：应用层协议解析逻辑通过应用层协议的解析，识别协议所传输的PDF文件附件的内容，并提交给网络中文PDF文件文本提取逻辑，若当前状态为寻找内容流，则进入步骤B2，若当前状态为保存后续内容流，则进入步骤B4，初始的状态为寻找内容流；步骤B2：对PDF文件内容进行内容流的定位，实质上就是对当前偏移位置后的内容流标签的识别，初始偏移标签为输入数据包的开始位置，若偏移位到达输入末尾，则返回；步骤B3：若识别内容流标签，则缓存内容流，进入步骤B4，若无内容流标签，则进入步骤B8；步骤B4：识别内容流结束标签，若有，进入步骤B5，若无，则进行预解压和预识别，若不包含文本或转码映射文件，则丢弃，设置当前状态为寻找内容流，若包含文本或转码文件，则设置当前状态为保存后续内容流，进入步骤B8；步骤B5：解压内容流，对内容流中文本内容或是转码映射文件进行相应的提取以及保存，若内容流中为文本内容，则进入步骤B6，若为转码映射文件则进入步骤B7；步骤B6：将文本CID编码加入编码缓存队列；步骤B7：按照转码逻辑，分多次将转码队列中的CID编码转换成Unicode编码，将Unicode编码加入输出缓存；步骤B8：设置偏移位，进入步骤B2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610161029.7/，转载请声明来源钻瓜专利网。

上一篇：富文本监听方法和装置
下一篇：一种多核DSP中EDMA不同带宽设备间通信的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向网络流传输的中文PDF文件文本内容提取方法有效

专利文献下载