[发明专利]基于模糊序列模式发掘的网页内容提取方法有效

申请号：	201610911400.7	申请日：	2016-10-19
公开（公告）号：	CN106547851B	公开（公告）日：	2020-04-07
发明（设计）人：	黄瑞章;黄庭;刘博伟;闫盈盈;陈功;王振军;朱坤;钟文良	申请（专利权）人：	贵州大学;贵州耕云科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/958
代理公司：	贵阳中新专利商标事务所 52100	代理人：	李亮;程新敏
地址：	550025 贵州省贵***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于模糊序列模式发掘的网页内容提取方法。本发明针对网页内容提取问题，通过相同内容块内容在超文本标记语言中距离较近，不同内容块的内容相距较远的原理，针对网页上的每一个内容模块，分别用一个行文字长度序列的方式来表示，同时越是功能性模块模糊度越低，信息越丰富的内容模块序列模糊度越高。针对不同网站，利用少量给定网页进行训练，得到模糊序列模式，对于来自同一个网站的新页面将利用模糊序列模式来进行匹配，得到不同类型的网页内容。这样的方法能够显著提高内容提取的准确性，同时能够将不同类型的内容分开提取。
搜索关键词：	基于模糊序列模式发掘网页内容提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于模糊序列模式发掘的网页内容提取方法，其特征在于：包括如下步骤：1)从给定的训练网页集合中提取模糊序列模式；2)根据发掘出的模糊序列模式确定不同模糊序列模式对应的网页内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州大学;贵州耕云科技有限公司，未经贵州大学;贵州耕云科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610911400.7/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载