[发明专利]一种对网页进行定向监测的方法有效
申请号: | 201811604429.6 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109829092B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 孙再连;吴谋荣;苏淮 | 申请(专利权)人: | 厦门邑通软件科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 进行 定向 监测 方法 | ||
本发明公开了一种对网页进行定向监测的方法,对网页上的内容进行框选,抓取框选中的每个内容,给出每个内容的相关信息,所述相关信息包括标题、摘要、网址、网页正文等。本申请提出的方法,通过框选网页,直接获取框选内容的相关信息,操作简单快捷,且能够自动获取网页上与框选内容相同的且未被框选到的内容,避免用户在网页上多次框选,提高用户工作效率。所述方法还能够记录历史框选操作,并判断不同框选对应的内容是否一致,当内容一致时,提供历史框选操作爬取的内容及其相关信息,避免重复爬取网页,浪费资源,同时,还加入人工监督机制和人工判断机制,提高该方法的准确性和可靠性。
技术领域
本发明涉及网页监测技术领域,尤其涉及一种对网页进行定向监测的方法。
背景技术
信息爆炸时代,面对当前互联网上海量的数据,如何快速,精准地获取数据已成为个人和企业的强烈诉求。
目前市面上的爬虫工具和数据采集产品种类繁多,有些产品使用过程简单直观,但通用性、可维护性及精准性却存在较多问题,具体表现如下:
1、数据来源基于产品本身已定制好的策略方案,无法完成深度的数据定制化;
2、配置过程非常复杂,对人员素质要求高,需要专业人员才能完成;
3、特定的分析器仅能针对特定的页面进行抽取,如果要针对多个不同的动态网站的不同栏目进行抽取,就必须编写多个分析器,增加了系统的复杂度;
4、当目标页面的某些特征发生变动时,比如页面链接或页面布局被修改,则对应的分析器也必须做出相应的修改,如果涉及到的目标页面太多或变动太大,修改分析器的难度也将增大。
因此,基于以上的情况,目前市场上亟需一款能够将机器学习和用户行为轨迹监测技术相结合,通用性高,可维护性好,且能够利用自然语言处理技术使文本数据的提取更简单和准确的网页监测方法。
发明内容
本发明为解决上述技术问题,提供了一种对网页进行定向监测的方法,其特征在于,对网页上的内容进行框选,抓取框选中的每个内容,给出每个内容的相关信息,所述相关信息包括标题、摘要、网址、网页正文等,操作简单快捷。
可选的,所述框选采用截屏定位方式。
可选的,根据用户框选区域获得定位信息,然后将网页中的所有元素的位置与用户框内容的位置进行比对,从而初步筛选出匹配内容,所述匹配内容为用户所想要了解的内容。
可选的,对框选区域的定位方式可以是:框选时,记录框选的初始点坐标为(X1,Y1),记录终止点坐标为(X2,Y2),起始点和终止点围成矩形的框选区域,所述框选区域的坐标叠加上用户拉动网页滚动条时造成的上下左右位移,得到框选区域的起始点和终止点的绝对坐标值,分别是(X1+ScrollLeft,Y1+ScrollTop)和(X2+ScrollLeft,Y2+ScrollTop),其中ScrollLeft为网页左右拉动的值,ScrollTo为网页上下拉动的值。
获取网页中每个内容的坐标,记任意一个内容A的坐标为(Xa,Ya),且内容A的长度为W,宽为H。
采用排除法判断网页上的A元素是否包含在用户框选的区域中,当Xa+W<X1+ScrollLeft,或者X2+ScrollLeft<Xa,或者Ya+H<Y1+ScrollTop,或者Y2+ScrollTop<Ya,或者Xa<X1+ScrollLeft且Ya<Y1+ScrollTop且Xa+W>X2+ScrollLeft且Ya+H>Y2+ScrollTop时,判断为内容A不在所述框选区域内,否则,判断为内容A在所述框选区域内,重复上述步骤,即可获得网页中被框选的所有内容。
可选的,通过机器学习对网页源代码进行分类和标签化处理;通过机器学习、模拟用户操作、智能对标、下钻爬取对用户所关注的网页内容进行用户框选的轨迹模拟,对网页深度挖掘,从而爬取网页中,用户未框选到的且是用户需要的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门邑通软件科技有限公司,未经厦门邑通软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811604429.6/2.html,转载请声明来源钻瓜专利网。