[发明专利]一种采用模板方式抽取结构化信息的方法无效
申请号: | 201310332442.1 | 申请日: | 2013-08-02 |
公开(公告)号: | CN103455553A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 徐方林 | 申请(专利权)人: | 徐方林 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州广正知识产权代理有限公司 32234 | 代理人: | 刘述生 |
地址: | 225000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 模板 方式 抽取 结构 信息 方法 | ||
技术领域
本发明涉及信息处理软件领域,具体的说,特别涉及到一种采用模板方式抽取结构化信息的方法。
背景技术
互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的。
结构化信息和非结构化信息是IT应用的两个世界,它们有着各自不同的应用进化特点和规律。但是,这两个世界之间还缺少相互连接的桥梁,而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离,其后果就是:虽然它们都在进行着“知识化”的努力,但两个世界分离的IT应用模式,注定使其难以真正实现它们的初衷——“在最合适的时间,将最合适的信息传送给最合适的人。
综上所述,针对现有技术的缺陷,特别需要一种采用模板方式抽取结构化信息的方法,以解决以上提到的问题。
发明内容
本发明的目的在于提供一种采用模板方式抽取结构化信息的方法,通过采用功能化的结构设计,克服了传统技术中的不足,从而实现本发明的目的。
本发明所解决的技术问题可以采用以下技术方案来实现:
一种采用模板方式抽取结构化信息的方法,包括如下步骤:
1)选定结构化信息的抽取对象,再根据抽取对象配置抽取模板,所述抽取模板中设置好的需要抽取的信息;
2)将抽取对象导入步骤1)配置完毕的抽取模板,所述抽取模板根据预先设置的信息,对抽取对象进行抽取操作,获得需要的结构化信息;
3)所述结构化信息抽取完毕后,经打包处理发送至目标单元。
在本发明的一个实施例中,所述抽取模板抽取的结构化信息包括营运内容、部门内容、Web内容和多媒体内容。
在本发明的一个实施例中,所述结构化信息抽取完毕后,添加信息的大小、类别、转换日期,便于后续处理。
本发明的有益效果在于:结构简单,设计巧妙,通过采用功能化的结构设计,克服了传统技术中的不足,填补了相关市场的空白,从而实现本发明的目的。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
本发明所述的 一种采用模板方式抽取结构化信息的方法,包括如下步骤:
1)选定结构化信息的抽取对象,再根据抽取对象配置抽取模板,所述抽取模板中设置好的需要抽取的信息;
2)将抽取对象导入步骤1)配置完毕的抽取模板,所述抽取模板根据预先设置的信息,对抽取对象进行抽取操作,获得需要的结构化信息;
3)所述结构化信息抽取完毕后,经打包处理发送至目标单元。
在本发明的一个实施例中,为了增加所述方法的泛用性,所述抽取模板抽取的结构化信息包括营运内容、部门内容、Web内容和多媒体内容。
尤其需要指出的是,所述结构化信息抽取完毕后,添加信息的大小、类别、转换日期,便于后续处理。
本发明结构简单,设计巧妙,通过采用功能化的结构设计,克服了传统技术中的不足,填补了相关市场的空白,从而实现本发明的目的。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐方林,未经徐方林许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310332442.1/2.html,转载请声明来源钻瓜专利网。