[发明专利]一种基于视觉效果的正文识别算法在审
申请号: | 201410234558.6 | 申请日: | 2014-05-30 |
公开(公告)号: | CN105302805A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 吕永强 | 申请(专利权)人: | 广州市邦富软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510663 广东省广州市天河区天河软件园高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉效果 正文 识别 算法 | ||
1.一种基于视觉效果的正文识别算法,所述算法步骤包括:
(1)取出一篇网页,提取标题和正文;
(2)提取该页面的视觉表达部分,如HTMLTag、JS和CSS;
(3)对页面中的有限状态机进行分析,获得部分特殊视觉效果信息;
(4)利用垂直渲染引擎计算出字体部分的js和css的效果属性;
(5)根据步骤2、3和4,得到以PT为单位的整篇文章的字体尺寸列表;
(6)通过字体尺寸列表获得字体权重排序;
(7)通过字体颜色与页面对比,获得字体颜色权重列表;
(8)通过字符串密度获得密度权重列表;
(9)根据步骤6、7和8进行综合运算,获得整个网页表达的语义与重心。
2.根据权利要求1中所述的基于视觉效果的正文识别算法,其特征在于:所述垂直渲染引擎包括:创建本地窗口对象,将该本地窗口对象的图像数据传送至相对应的底层接口,建立所述本地窗口对象与渲染线程的连接;所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,生成渲染数据;实时获取所述渲染数据进行显示,并在渲染完毕后销毁所述本地窗口对象,结束所述渲染线程。
3.根据权利要求2中所述的基于视觉效果的正文识别算法,其特征在于:当所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,进一步为,所述渲染线程以外的数据线程中有图像数据传输到指定的资源存储空间后,将预先生成的所述脚本信息数据发送至所述底层接口中与上一次保存的进行渲染处理所执行的所述脚本信息数据进行比较,若相同,则启动该渲染线程进行图像渲染;若不同,则进行初始化处理生成相应的渲染线程后再进行图像渲染。
4.根据权利要求3中所述的基于视觉效果的正文识别算法,其特征在于:所述脚本信息数据,进一步为字符串形式的脚本信息通过相应函数写入显存,编译为二进制码进行存储的图形处理器进行渲染处理时的执行数据。
5.根据权利要求1中所述的基于视觉效果的正文识别算法,其特征在于:启动所述渲染线程对所述图像数据进行图像渲染,生成渲染数据,进一步为,启动所述渲染线程,本地渲染接口函数以循环体的方式在该渲染线程中进行轮询监测,在所述图像数据传输至所述指定的资源存储空间后,将该图像数据传递到底层进行图像渲染,生成渲染数据。
6.根据权利要求1中所述的基于视觉效果的正文识别算法,其特征在于:将所述图像数据传递到底层进行图像渲染,进一步为,将所述图像数据以字节数组的方式传递到底层进行图像渲染。
7.根据权利要求6中所述的基于视觉效果的正文识别算法,其特征在于:窗口对象创建模块、渲染处理模块以及窗口显示处理模块,其中,所述窗口对象创建模块,用于创建本地窗口对象,将所述本地窗口对象的图像数据发送至所述渲染处理模块;所述渲染处理模块,用于通过其内部的所述渲染线程以外的数据线程接收所述图像数据,并在所述图像数据传输到该渲染处理模块内部指定的资源存储空间后,启动所述渲染线程对所述资源存储空间中的所述图像数据进行图像渲染,生成渲染数据发送至所述窗口显示处理模块,以及用于接收所述窗口显示处理模块发送的终止指令结束所述渲染线程;所述窗口显示处理模块,用于实时获取所述渲染数据进行显示,在渲染完毕后生成销毁指令对所述本地窗口对象进行销毁,同时生成终止指令发送至所述渲染处理模块。
8.根据权利要求7中所述的基于视觉效果的正文识别算法,其特征在于:所述渲染处理模块,进一步用于,通过其内部的所述渲染线程以外的数据线程接收所述图像数据,并在所述图像数据传输到指定的资源存储空间后,将预先生成的所述脚本信息数据与上一次保存的进行渲染处理所执行的所述脚本信息数据进行比较,若相同,则启动所述渲染线程对所述资源存储空间中的进行图像渲染;若不同,则进行初始化处理生成相应的渲染线程后再进行图像渲染,生成渲染数据发送至所述窗口显示处理模块。
9.根据权利要求8中所述的基于视觉效果的正文识别算法,其特征在于:所述脚本信息数据,进一步为字符串形式的脚本信息通过相应函数写入显存,编译为二进制码进行存储的图形处理器进行渲染处理时的执行数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市邦富软件有限公司,未经广州市邦富软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410234558.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:转盘开启式密码锁
- 下一篇:一种新型渗透式波浪式结构的太阳能空气集热器装置