[发明专利]网络文学目录型网页自动识别方法无效
申请号: | 201010245846.3 | 申请日: | 2010-08-05 |
公开(公告)号: | CN102346748A | 公开(公告)日: | 2012-02-08 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络文学 目录 网页 自动识别 方法 | ||
技术领域
本发明涉及网页处理,特别是涉及一种网络文学目录型网页自动识别方法。
背景技术
网络文学业务正在互联网上迅速发展,互联网的网民们也越来越依赖于在网络上阅读文学作品。在网络上阅读文学页面时,目录页是其中最为重要的一页——该页面给出了文章所有的章节列表,用户可以最为方便的访问所需的章节。
现有技术中网页是一个HTML(HyperText Mark-up Language)即超文本标记语言或超文本链接标示语言文件,HTML的结构包括头部(Head)即网页的数据头、主体(Body)即网页的数据体两大部分,网页的数据头是指HTML标签中<Head>和</Head>之间的部分,网页的数据体是指<Body>和</Body>之间的部分。对搜索引擎来说,在网页处理时,对小说目录页进行识别是非常有必要,只有对这些网页进行正确识别后,才能在用户搜索相关文学作品名称时,直接提供给网民对应的小说目录页面,提高检索结果的质量
现有技术中小说目录页面具有如下的识别难点:1、不同站点使用的html格式各不相同,如html页面排版布局、CSS模板、字体、字号、颜色等各不相同,无法使用简单的使用模板匹配的方法进行小说目录页的识别。2、网页和网页地址(url)中均没有明显的小说目录信息,仅从url很难提取到小说目录页信息。另外,从页面的文本内容来看,没有直接出现目录、列表等关键词,也难以直接获取页面类型信息。
发明内容
本发明所要解决的技术问题是提供一种网络文学目录型网页自动识别方法,能解决不同类型的站点中由于小说目录页面的多样性而产生的识别问题,能很好的对小说目录页进行识别。
为解决上述技术问题,本发明提供的网络文学目录型网页自动识别方法,包括如下步骤:
步骤一、获取当前网页的数据体。所述数据体为html源文件中HTML标签中的<Body>和</Body>之间的部分。
步骤二、在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串,以每一个所述超链接标记所对应的字符串为一个数组元素存储于一个字符串数组一中。所述超链接标记为html标记<a>,所述包含有超链接地址的超链接标记是包含有“herf=”参数的所述超链接标记<a>;在所述数据体中抽取所有包含有超链接地址的超链接标记所对应的字符串方法为:判断所述数据体中是否含有“<a herf=”标记;对包含所述“<a herf=”标记的部分进行字符串抽取,抽取的范围为从“<a”标记开始、到“</a>”标记结束的所有字符串。
步骤三、去除所述字符串数组一包含有图像类超链接标记的数组元素,形成一字符串数组二。所述图像类超链接标记为“<img”标记。
步骤四、抽取出所述字符串数组二的各数组元素的超链接文本信息,以各所述超链接文本信息为数组元素形成一字符串数组三。其中,抽取出所述字符串数组二的各数组元素的超链接文本信息的方法为:首先生成一个栈;再对所述字符串数组二的数组元素进行从头部到尾部的字符扫描并对扫描到的当前字符进行如下判断:当所述当前字符为“<”字符时,将所述当前字符压栈;当所述当前字符为“>”字符时,且栈顶元素为“<”字符时,将“<”字符弹栈;当所述当前字符为非“<”字符和非“>”字符时,如果当前栈顶元素为“<”字符,则忽略所述当前字符即不进行压栈和弹栈的操作,继续沿字符串往前遍历扫描;当所述当前字符为非“<”字符和非“>”字符时,如果当前栈顶元素不是“<”字符,则将当所述当前字符压栈;当对所述字符串数组二的数组元素进行如上扫描结束后,将所述栈中的文本弹出,以该弹出文本形成所述字符串数组三的一数组元素。
步骤五、判断所述字符串数组三中的各数组元素是否为一目录文本信息,并对是目录文件信息的数组元素进行计数,得到数值一。其中,判断所述字符串数组三中的各数组元素是否为一目录文本信息的方法为,判断所述字符串数组三的数组元素是否满足如下条件:所述字符串数组三的数组元素的第一个文字字符为“第”、且所述字符串数组三的数组元素的后续文字字符中含有“章”、或“节”、或“回”、或“话”;若满足上述条件,则所述字符串数组三的数组元素为一目录文本信息。
步骤六、用所述数值一除以所述字符串数组三的数组元素的总数得到一确认比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010245846.3/2.html,转载请声明来源钻瓜专利网。