[发明专利]一种对网页进行定向监测的方法有效

专利信息
申请号: 201811604429.6 申请日: 2018-12-26
公开(公告)号: CN109829092B 公开(公告)日: 2021-05-28
发明(设计)人: 孙再连;吴谋荣;苏淮 申请(专利权)人: 厦门邑通软件科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958
代理公司: 暂无信息 代理人: 暂无信息
地址: 361000 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 进行 定向 监测 方法
【权利要求书】:

1.一种对网页进行定向监测的方法,其特征在于,对网页上的内容进行框选,抓取框选中的每个内容,给出每个内容的相关信息,所述相关信息包括标题、摘要、网址、网页正文;采集框选区域内的所有内容,形成集合B,从集合B中取得首元素b1和末元素bn,分析首元素b1和末元素bn获取他们共同的父节点,如果首元素b1和末元素bn的父节点层级不同,则认为两个元素不是同一个类型,舍弃末元素bn后重新获取元素bn-1,分析首元素b1和元素bn-1的共同父节点,以此类推直到找到与b1拥有共同父级节点的元素bm;分析b1和bm的样式是否相同,如果二者样式不同,舍去bm元素重新获取bm-1元素,重新分析b1和bm-1元素的样式,以此类推直到找到拥有共同样式的元素b1和bz;分别获取b1元素和bz元素的所有父节点记为list1和listz,比对list1和listz层级最大的相同节点记为node1,则node1为b1和bz元素的最近的共同父节点;利用node1节点,寻找与b1元素有共同样式的元素,获取集合Y={b1,……,bz},集合Y为用户需要获取的内容。

2.根据权利要求1所述的一种对网页进行定向监测的方法,其特征在于,所述框选采用截屏定位方式。

3.根据权利要求1所述的一种对网页进行定向监测的方法,其特征在于,根据用户框选区域获得定位信息,然后将网页中的所有元素的位置与用户框选内容的位置进行比对,从而初步筛选出匹配内容,所述匹配内容为用户所想要了解的内容。

4.根据权利要求3所述的一种对网页进行定向监测的方法,其特征在于,框选时,记录框选的初始点坐标为(X1,Y1),记录终止点坐标为(X2,Y2),起始点和终止点围成矩形的框选区域,所述框选区域的坐标叠加上用户拉动网页滚动条时造成的上下左右位移,得到框选区域的起始点和终止点的绝对坐标值,分别是(X1+ScrollLeft,Y1+ScrollTop)和(X2+ScrollLeft,Y2+ScrollTop);获取网页中每个内容的坐标,记任意一个内容A的坐标为(Xa,Ya),且内容A的长度为W,宽为H;采用排除法判断网页上的A元素是否包含在用户框选的区域中,当Xa+W<X1+ScrollLeft,或者X2+ScrollLeft<Xa,或者Ya+H<Y1+ScrollTop,或者Y2+ScrollTop<Ya,或者Xa<X1+ScrollLeft且Ya<Y1+ScrollTop且Xa+W>X2+ScrollLeft且Ya+H>Y2+ScrollTop时,判断为内容A不在所述框选区域内,否则,判断为内容A在所述框选区域内。

5.根据权利要求1所述的一种对网页进行定向监测的方法,其特征在于,通过机器学习对网页源代码进行分类和标签化处理;通过机器学习、模拟用户操作、智能对标、下钻爬取对用户所关注的网页内容进行用户框选的轨迹模拟,从而爬取用户未框选到的且是用户需要的内容。

6.根据权利要求5所述的一种对网页进行定向监测的方法,其特征在于,将用户实时的框选区域与历史的框选区域或者其他用户历史的框选区域对比,判断是否属于相同的框选区域;当判断为属于相同时,根据历史的框选,获取框选的内容的实时相关信息;当判断为不属于相同时,爬取用户未框选到的且是用户需要的内容和内容的相关信息。

7.根据权利要求6所述的一种对网页进行定向监测的方法,其特征在于,所述相同的框选区域的判定方法为,通过获取用户框选的起始点坐标及终止点坐标定位(X1,Y1,X2,Y2)做为输入参数来构造SVM分类器,根据起始点及终止点之间的所有内容在整个网页中的定位对框选区域进行分类,再根据分类结果进行相同区域的判定。

8.根据权利要求7所述的一种对网页进行定向监测的方法,其特征在于,所述分类器加入用户监督机制,用户对分类结果进行判断是否为用户所关注的内容,并将判断结果加入训练集进行下一次训练;定期对训练集进行清洗及训练,将由于用户误操作而产生的噪声类进行合并,最终将正确的判断结果保存到训练集,使用分类器时调用训练结果,避免重复训练造成的资源浪费。

9.根据权利要求1或5所述的一种对网页进行定向监测的方法,其特征在于,根据用户身份特征不断地对用户定向框选行为进行机器学习、监督学习、强化学习,从而智能地向用户所关注的内容进行自动推荐框选;所述自动推荐框选是通过贝叶斯分类器进行用户行为数据样本分类训练,当推荐框选符合用户需求时,分类器将自动把用户行为和推荐结果存入数据样本库,当推荐框选不符合用户需求时,程序将自动跳转到用户手动框选界面,并同时对用户行为和框选结果进行学习,以便提高分类器向用户自动推荐框选的正确率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门邑通软件科技有限公司,未经厦门邑通软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811604429.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top