[发明专利]一种专利信息解析方法和装置有效
申请号: | 201210142700.5 | 申请日: | 2012-05-09 |
公开(公告)号: | CN102682109A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 谢国利 | 申请(专利权)人: | 北京彼速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 信息 解析 方法 装置 | ||
【技术领域】
本发明涉及计算机信息技术领域,特别涉及一种专利信息解析方法和装置。
【背景技术】
随着互联网技术的迅速发展,网络成为人们获取信息的主要手段,专利信息也是如此。在世界范围内几乎所有的专利信息都通过互联网发布,使得人们能够更方便的获取专利信息,从而推动技术创新和发展。现在越来越多的企业用户通过在互联网上检索专利信息并将其解析为准确数据保存在本地数据库中,从而形成自有的专利情报库来深入使用。
在将以超文本标记语言(HTML)格式发布的专利数据进行解析时,通常是用户分析HTML格式的专利信息,编写出可以准确定位各数据项(诸如专利著录项目)的正则表达式,形成计算机程序可以识别的规则,然后由计算机程序根据该规则从HTML格式的专利信息中解析出准确的数据项内容。
虽然这种专利信息的解析方式具有较高的解析效率,但互联网上的网站所有者经常会调整HTML格式从而使网页显示不同的效果,这种调整必然导致用户设置的正则表达式规则失效,从而导致上述解析方式解析出的数据出错或无法解析出数据。除非用户重新分析HTML格式,重新编写出可以准确定位各数据项的正则表达式规则,并更新到计算机程序中,这显然为用户带来巨大的工作量,浪费人力,且效率低下。
【发明内容】
本发明提供了一种专利信息解析方法和装置,以便于在HTML格式调整后也能够实现专利信息的自动解析,节约人力,提高效率。
具体技术方案如下:
一种专利信息解析方法,该方法包括:
S1、从数据库中选择已完成解析的专利信息作为基础数据,并从网站上获取所述专利信息的HTML格式网页;
S2、针对所述基础数据中的各数据项,分别从获取到的HTML格式网页中获取能够唯一定位各数据项的字符串,并分别格式化为解析各数据项的正则表达式;
S3、利用所述解析各数据项的正则表达式,从所述网站未解析的HTML格式网页中解析专利信息,并将解析到的专利信息存入所述数据库。
根据本发明一优选实施例,定时检测所述网站的HTML格式是否发生变化,如果检测到HTML格式发生变化,则触发执行所述步骤S1;或者,
人工触发执行所述步骤S1;或者,
无论所述网站的HTML格式是否发生变化,均定期触发执行所述步骤S1。
根据本发明一优选实施例,所述步骤S2具体包括:
S21、获取所述基础数据中未执行所述步骤S2的一个数据项作为当前数据项;
S22、在步骤S1获取的HTML格式网页中确定当前数据项的位置;
S23、从该位置分别向前和向后截取预设截取长度的字符串,过滤截取的字符串中的非HTML标签后,将前后两个字符串格式化成正则表达式;
S24、检验得到的正则表达式是否能够唯一定位当前数据项,如果是,则记录当前数据项对应的正则表达式,转至所述步骤S21;否则,增大所述截取长度,重新转至所述步骤S23。
根据本发明一优选实施例,所述步骤S23中将前后两个字符串格式化成正则表达式具体包括:
将过滤后的前后两个字符串中的各字符作为正则表达式中的元字符,过滤的非HTML标签中紧邻当前数据项的普通字符在正则表达式中保留,过滤的其他内容在正则表达式中替换为正则表达式通配符号。
根据本发明一优选实施例,所述步骤S24中检验得到的正则表达式是否能够唯一定位当前数据项具体为:
将所述得到的正则表达式到所述步骤S1获取的HTML格式网页中或者其他HTML格式网页中提取信息,判断是否能够唯一获取当前数据项的内容,如果是,则说明能够唯一定位当前数据项。
根据本发明一优选实施例,在所述步骤S2和步骤S3之间还包括:
S41、从所述数据库中另选择一条已完成解析的专利信息,从所述网站上获取另选择专利信息的HTML格式网页;
S42、利用步骤S2得到的各数据项的正则表达式从步骤S41获取的HTML格式网页上提取各数据项的专利信息,并判断提取的专利信息与所述数据库中存储的专利信息是否一致,如果一致,则确定验证通过,继续执行所述步骤S3;否则,指示对不一致的数据项的正则表达式进行修正。
一种专利信息解析装置,该装置包括:
基础数据获取单元,用于从数据库中选择已完成解析的专利信息作为基础数据;
网页获取单元,用于从网站上获取所述基础数据获取单元所选择专利信息的HTML格式网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京彼速信息技术有限公司,未经北京彼速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210142700.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置