[发明专利]将结构化及非结构化数据实现在XML文件的方法有效
申请号: | 201380036629.5 | 申请日: | 2013-04-29 |
公开(公告)号: | CN104428763B | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 金荣根 | 申请(专利权)人: | 金荣根 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京冠和权律师事务所11399 | 代理人: | 朱健 |
地址: | 韩国京畿道河南市*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 据实 现在 xml 文件 方法 | ||
技术领域
本发明涉及一种将结构化及非结构化数据(structured and non-structured data)实现(implementing)在XML文件的方法,涉及利用XML置换技术将存储在数据库(database)的结构化数据和存储在legacy文件的非结构化数据实现在XML文件的方法。
背景技术
因特网(internet)对分布在全世界的许多通信网进行相互连结,连结于因特网的电脑为了相互之间的通信使用叫做TCP/IP(传输控制协议/因特网互联协议,Transmission Control Protocol/Internet Protocol)的通信协议。
另外,HTML作为万维网(WWW,World Wide Web)上所使用的数据形式之一,是记述超媒体(Hyper Media)文件的方式。其利用叫做SGML(标准通用标记语言,Standard Generalized Markup Language)的标准化的文件形式定义超文本(hypertext)的逻辑结构,以普通文本(text)文件(file)的形式得到存储。
使用者为了利用像因特网浏览器(Internet Explorer)一样的浏览器(Web Browser)来浏览特定网页(web page),通常需要输入相应网页的统一资源定位符(URL:Uniform Resource Locator,以下称为URL)的地址。因此,如果使用者不知道相应网页的统一资源定位符的地址,则难以接近目标文件。
因此,需要即使不一一熟知因特网网站(internet site)的URL信息也能在因特网上泛滥的庞大的量的信息中容易找出自己所要的信息的软件,而将所述软件通称为搜索引擎(Search Engine)。
搜索引擎的原理是,将叫做搜索机器人(Robot)或蜘蛛(Spider)程序的一定的搜索程序逛开设于因特网上的多个网站而将预先收集到的网站信息存储在数据库后,当使用者输入特定的搜索词时,在数据库中只将具有与所输入的搜索词一致的内容的网站进行选择并提供。更加详细说明如下,如果搜索引擎从使用者电脑接到关键词输入等搜索要求,则通过CGI(公共网关接口,Common Gateway Interface)来启动蜘蛛程序。
在此,CGI是指网络服务器(web server)和外部程序之间的标准接口(interface),所述网络服务器从设置在使用者电脑的浏览器得到数据的输入,根据所输入的数据使设置在外部的程序运行,从所运行的程序接收运行结果。启动的蜘蛛程序从储存有各种网站(website)的统一资源定位符的地址及信息等的索引(Index)数据库接收搜索结果并变换成HTML形式,以变换的HTML文件形态传送至使用者电脑。
所述搜索引擎在因特网服务开始的初期使用了目录(directory)式搜索方式,所述目录式搜索方式采用如下方式:在搜索引擎侧对各因特网网站和网络(web)文件进行搜索及分类,从而构建为数据库,通过逐渐细化根据使用者的主题搜索或菜单(menu)搜索而已预先设定的主题分类来使接近最终资料得以实现。
但是,随着因万维网的规模日益急剧膨胀而因特网网站的数量激增,靠目录式搜索方式对所要信息的顺畅的搜索不再成为可能。换句话说,相应于急剧膨胀的万维网的规模,搜索引擎所持有的资料也应相应地增加,但是,如现有的搜索引擎一样通过手工作业确认一个网页并将经确认的网页储存于数据库的方式无法赶上万维网成长趋势。
基于所述理由,出现了引入所述搜索机器人的概念而自动将网页进行搜索和索引从而提供搜索服务的搜索引擎。所述搜索引擎使用关键词(搜索词)方式的搜索方法,对使用者输入的搜索词和相关的网上文件均进行搜索而提供给使用者的电脑等,但因所搜索的网络文件的量过多,从而有使用者在所搜索的结果画面中再找出自己所要的内容的不便。
另一方面,XML是可扩展标记语言(eXtensible Markup Language)的缩写,是将来在因特网时代必须使用的下一代因特网文件标准。其在1998年W3C(World Wide Web Consortium,万维网联盟)被指定为因特网标准文件,而XML具有人易于理解且机器易于处理的结构,是克服HTML的表达局限性的同时弥补SGML的缺点而造出来的语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金荣根,未经金荣根许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380036629.5/2.html,转载请声明来源钻瓜专利网。