|
钻瓜专利网为您找到相关结果 68个,建议您 升级VIP下载更多相关专利
- [发明专利]一种网页主题确定的方法-CN201210491396.5在审
-
刘立堂;李勇
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
G06F17/30
- 本发明公开了一种网页主题确定的方法,包括如下步骤:确定自定义主题和获取网页主题的链接;所述获取网页主题的链接包括链接上下文的提取和局部扩散提取链接;所述局部扩散提取链接包括主题型语义块中链接上下文提取、目录型和图片型语义块中链接上下文提取和网页链接提取;本发明首先给出了基于布局标签的网页HTML标签文档划分方法,接着提出了块的概念,并对划分后的语义块进行位置编号,构造出带有编号的布局标签DOM树,最后基于网页块的位置进行主题的确定和主题链接的提取;使用户能迅速获取主题信息,扩展了Web的可用性,有助于解决信息抽取等一系列问题。
- 一种网页主题确定方法
- [发明专利]一种网页结构化信息抽取方法-CN201210491471.8在审
-
侯辛酉;夏铭泽
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
G06F17/30
- 本发明设计一种网页结构化信息抽取方法,网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取,以结构化数据的方式存储在数据库中。主要包括网页分析、制定抽取规则、元数据抽取和信息整合四个方面。首先需要对目标网页进行分析,确定待抽取的元数据并分析其对应的HTML代码特点。然后,根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则,抽取规则的制定要保证对待抽取数据匹配的唯一性。根据制定的抽取规则,所有待抽取的字段信息都会准确地从网页文本中抽取出来,并作为结构化数据存储到数据库中。最后对抽取后的结构化数据进行整合处理,确保数据库中信息的一致性和完整性。
- 一种网页结构信息抽取方法
- [发明专利]一种Web数据自动采集的方法-CN201210490953.1在审
-
苏晓华;李勇
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
G06F17/30
- 本发明公开了一种Web数据自动采集的方法,包括以下步骤:网络机器人技术和网页数据提取技术;所述网络机器人技术包括设计网络机器人工作流程、制定网络机器人设计原则、深度优先搜索策略和广度优先搜索策略、网络陷阱、均衡访问和超链接提取;所述网页数据提取技术包括网页纯文本的提取和对文本中的特殊字符进行分析并处理;本发明提供的一种Web数据自动采集方法,充分利用网络机器人技术和网页数据提取技术,形成Web自动采集方法,从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,解决了数据采集人员及市场研究人员所面临的一个问题,同时扩展了Web的可用性,对数据采集,尤其是自动数据采集的发展做出了一定贡献。
- 一种web数据自动采集方法
- [发明专利]一种提高向量距离分类质量的方法-CN201210476178.4在审
-
李聪慧;王秀坤
-
大连灵动科技发展有限公司
-
2012-11-21
-
2014-06-04
-
G06F17/30
- 本发明公开了一种提高向量距离分类质量的方法,包括以下步骤:基于VSM的特征加权过程,包括基于词义的特征项词频加权和基于文档结构的特征项词频加权;提取英文搜索的词干;分析用户查询日志;训练语料库修正、扩充。本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷,采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率,通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正,最后,通过对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。
- 一种提高向量距离分类质量方法
- [发明专利]一种专利领域的垂直搜索引擎-CN201210490948.0在审
-
苏晓华;刘立堂
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
G06F17/30
- 本发明设计并实现了一种专利领域的垂直搜索引擎。专利垂直搜索系统是在专利领域应用垂直搜索的理念和技术,面向互联网中为数不多的专利权威网站,对它们的专利信息资源进行抓取、分析、整合,最后给专利相关工作者提供专业的专利搜索以及聚类可视化分析服务。专利信息绝大部分集中在少数几个专利站点,所以只需要对这些特定的专利站点进行采集,就能满足绝大多数用户的需求。采集对象的有限性和针对性,可以很好的提高采集的效率和准确率,而且信息的及时更新也可以得到保证。对聚类结果进行可视化能使用户更加直观形象地理解聚类得到的信息,了解数据之间的相互关系及发展趋势,从更高的层次对数据进行更深入的观察和分析。
- 一种专利领域垂直搜索引擎
- [发明专利]一种垂直网络蜘蛛-CN201210495397.7在审
-
郑世超;苏晓华
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
H04L29/08
- 本发明涉及一种垂直网络蜘蛛。垂直网络蜘蛛是与通用搜索引擎的网络蜘蛛相对的一个概念。与通用搜索引擎不同的是,垂直搜索引擎服务于特定人群,其关注的只是某一专业领域的信息,因此垂直网络蜘蛛在搜索过程中没有必要对整个Web进行遍历,只需选择与本领域相关的页面进行访问。垂直网络蜘蛛与通用网络蜘蛛相比,在网页采集技术上有很大的不同,其算法和工作流程更为复杂。垂直网络蜘蛛在搜索Web时,需要根据一定的网页分析算法对网页的主题相关性进行判断,对发现的URL进行主题预测和识别,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
- 一种垂直网络蜘蛛
- [发明专利]一种移动搜索引擎优化方法-CN201210491498.7在审
-
李勇;郑世超
-
大连灵动科技发展有限公司
-
2012-11-27
-
2014-06-04
-
G06F17/30
- 本发明提出了一种移动搜索引擎优化方法。包括以下步骤:设计移动搜索引擎框架;建立URL列表;编辑翻译器;设计WAP接口.由于本发明针对移动搜索引擎的现状,在现有互联网搜索引擎的框架上加入移动模块,提出一种利用HTML资源建立移动搜索引擎的方式,该方式通过集中处理网络蜘蛛抓取的HTML网页,将HTML网页进行主题信息提取,再将主题信息转化成手机可以识别的WML页面,并存入WML的快照库中,当用户点击条记录察看具体网页时,系统不会直接链接互联网上的该网页,而是链接该网页相对应的WML网页快照,满足用户的移动搜索需求。在实际应用中,使用这种方式成功的建立了一个面向生活服务领域的移动搜索引擎,覆盖全国近四十个城市的餐饮、娱乐和黄页信息。
- 一种移动搜索引擎优化方法
|