[发明专利]一种基于搜索引擎的人物检索系统及方法有效

专利信息
申请号: 201711147336.0 申请日: 2017-11-17
公开(公告)号: CN107908749B 公开(公告)日: 2020-04-10
发明(设计)人: 刘扬;王佰玲;周奇;辛国栋;孙云霄;王巍 申请(专利权)人: 哈尔滨工业大学(威海)
主分类号: G06F16/951 分类号: G06F16/951;G06F16/35;G06F16/33;G06F40/295
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 杨树云
地址: 264209 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 搜索引擎 人物 检索系统 方法
【说明书】:

技术领域

本发明涉及一种基于搜索引擎的人物检索系统及方法,属于互联网和搜索技术领域。

背景技术

目前,人物检索的主要难点是,检索人名返回的网页中存在人名歧义和信息杂乱的问题。人名消歧是指将具有相同人名的多个人物个体区分开来。人名歧义的普遍存在给信息传播和资源的获取造成诸多不便,当下主流的搜索引擎提供的人名搜索结果往往是将所有重名人网页和不相关网页的混合,这些网页按照一定地规则排序,被关注度高的人物信息更有可能排在前面的位置。例如,在百度搜索引擎对“李娜”,检索结果中网页排名靠前的有“网球运动员”、“歌手”、“最美癌症女孩”、等身份的李娜,作为普通辅导教师的“李娜”的信息就淹没在这些信息海洋中,导致用户需要耗费大量的时间进行核对与筛选。

针对上面的问题,目前有三类解决办法:一、有监督的分类算法:通过人工标注语料库,选择合适的分类器模型实现网页文本的分类,该类方法的类别个数确定,不能适应数据的动态增长,而且分类器的好坏在一定程度上依赖于标记语料库的大小。二、无监督的聚类算法:主要分为传统的聚类算法、基于图分割的聚类算法和基于网络资源的聚类算法。传统的聚类算法,通过构造网页文本的向量空间模型,使用K-Means或者层次聚类算法实现人名消歧;基于图分割的聚类算法,事先以文档或特征为节点,用文档或特征之间的关系作为边来构造社会关系网,再利用图分割的方法进行聚类;基于网络资源的聚类算法,首先利用同义词词林、雅虎网络文档分类体系和维基百科等网络资源缓解数据缺失和稀疏的问题,然后再使用聚类算法实现人名的消歧。三、混合模型:使用多个步聚的策略,将多个分类或者聚类算法整合在一起,实现人名消歧。由于网络信息的多样性和不确定性,再加上缺乏大规模人工标注的语料库,而且人工标记非常的耗时费力,从这个意义上看,基于无监督的人名消歧方法优于有监督的。

目前,人名消歧的研究主要依托于文本建模,预处理中包括抽取人物属性和命名实体,并结合人名上下文信息研究人名和人物个体的映射关系。但通过观察发现,网页中有许多与人名距离较远的文本信息和一些抽象信息,对人名消歧有重大帮助,如两个网页同属于音乐主题,或者同属于计算机领域,则两个页面很有可能对应同一个人,因此我们对整个网页进行建模;而且目前的解决办法,不能自动的识别网页集中的类别个数,需要人工的干预。

中国专利文献102054029A公开了一种基于社会网络和人名上下文的人物信息消歧处理方法,本发明涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。但是,该专利直接对网页正文文本进行抽取、分词和词性标注形成文档,目前搜索引擎检索返回的网页种类复杂,结构多样,网页中侧栏和多级标题往往包含检索人名的绝大部分信息。通过该专利的方法无法提取网页中非正文文本中的人名相关信息,严重影响聚类的效果;该专利的聚类算法,需要提取正文中的人物领域信息,提取的信息量对聚类的效果影响很大,而且需要人工指定聚类的阈值,存在人工干预对聚类效果的影响。

发明内容

针对现有技术的不足,本发明提供了一种基于搜索引擎的人物检索系统;

本发明还提供了一种基于搜索引擎的人物检索方法;

首先,根据网页的实际布局,使用Vision-based Page Segmentation(VIPS)算法实现网页的分块,并提取每个视觉块中的文本、位置和链接特征,使用SVM算法过滤网页中与人名无关的视觉块;然后,采用基于混合狄利克雷过程的文本聚类方法,本方法能够根据文本中的词频统计特征自动判断该文档属于已有的类别,还是新生成的类别,自动识别网页文本集的类别个数,减少的人工干预对聚类效果的影响,有效地解决了检索人名返回网页中的人名歧义问题;最后,通过抽取的属性和人物关系生成人物摘要,为用户检索人名提供便利。

术语解释:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711147336.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top