[发明专利]一种从网页中提取人物属性的方法及系统有效

申请号：	202111514629.4	申请日：	2021-12-13
公开（公告）号：	CN114201971B	公开（公告）日：	2023-06-13
发明（设计）人：	王善和;武博;李秀梅	申请（专利权）人：	海南港航控股有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F16/951;G06F16/958
代理公司：	武汉华之喻知识产权代理有限公司 42267	代理人：	廖盈春;曹葆青
地址：	570311 ***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页提取人物属性方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种从网页中提取人物属性的方法及系统，其中，提取人物属性的方法包括：源代码获取步骤、网站服务器地址获取步骤、页面节点信息获取步骤和人物属性值获取步骤。本发明使用页面解析算法获取页面节点信息，使用文本文件解析算法提取人物属性，而文本文件解析算法不需要对文本语义进行解析，因此本发明不需要执行复杂的文本语言解析操作，从而能快速定位并获取人物属性；本发明使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记，而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关，因此本发明提取的人物属性的精确度较高。

技术领域

本发明属于信息挖掘领域，更具体地，涉及一种从网页中提取人物属性的方法及系统。

背景技术

各个网页的源代码中包含大量的人物属性，这些信息对于企业的信息化建设有着重要的意义。但是由于各个网站的网页结构和源代码均不相同，如何从不同的网页结构和源代码中获取人物属性是信息挖掘领域的一大难题。

现有技术通常使用文本分析算法解析网页源代码的语义信息，从而获取人物属性的属性名称和对应的属性值，如识别出“张三”是一个姓名，“29岁”是一个年龄。但是文本分析算法的精确度不高，且计算速度较慢，严重影响了人物属性提取的效率和效果。当前的信息挖掘领域迫切需要一种精确度较高且计算速度较快的从网页中提取人物属性的方法。

为了便于理解本发明，以下对有关术语和相关概念进行解释：

爬虫算法：现有的网络算法中用于抓取网页内容的一类的算法，常用的有Python爬虫算法等；

页面解析算法：现有的网络算法中用于解析网页文本结构的一类的算法，常用的有jsoup页面解析算法；

文本文件解析算法：现有的网络算法中用于获取网页文本内容的一类的算法，该算法不需要对文本语义进行解析。常用的有text算法；

人物属性：人物实体相关的属性，一个人物属性通常用一个属性名称及其对应的属性值来表示，例如：属性名称为姓名；属性值为小明。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种从网页中提取人物属性的方法及系统，旨在解决提高从网页中提取人物属性的精确度和速度的问题。

为实现上述目的，本发明提供了一种从网页中提取人物属性的方法，包括以下步骤：

(1)源代码获取步骤：

对于包含分页的网页，获取各个分页的源代码；对于不包含分页的网页，获取网页的源代码；所述各个分页的源代码和网页的源代码均包含若干个页面节点信息；

(2)网站服务器地址获取步骤：

通过爬虫算法，从所述各个分页的源代码或网页的源代码中获取网站服务器地址；