[发明专利]基于概念语义背景图挖掘用户兴趣的方法无效
| 申请号: | 201110252770.1 | 申请日: | 2011-08-30 |
| 公开(公告)号: | CN102306182A | 公开(公告)日: | 2012-01-04 |
| 发明(设计)人: | 杜亚军;海宇峰;谢春芝;李曦;刘克剑;柳荣其 | 申请(专利权)人: | 西华大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳市科吉华烽知识产权事务所 44248 | 代理人: | 胡吉科 |
| 地址: | 610039 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 概念 语义 背景图 挖掘 用户 兴趣 方法 | ||
技术领域
本发明涉及网络搜索领域,尤其涉及一种基于概念语义背景图挖掘用户兴趣的方法。
背景技术
与概念语义背景图相关的主题爬行方面有两种:一是链接背景图,M. Diligenti, F.M. Coetzee, S. Lawrence, C.L. Giles, Focused crawling using context graphs, The 26th International Conference on Very Large Database (VLDB), 2000, pp. 527–534.此方法是将网络上的网页关系映射到一个图中,形成网页的链接背景图,可以用来判断待爬行的网页与用户的目标网页之间的距离,进而安排网页的爬行顺序。但链接背景图的方法是基于一种假设,在同一主题中的所有的网页之间都有一种层次关系,然而,当网页之间没有这种层次关系的时候,链接背景图的方法无法使用。二是相关背景图,H.Ching-Chi,W.Fan, Topic-specific crawling on the Web with the measurements of the relevancy context graph, Information Systems 31 (2006) 232–246.这种方法是对链接背景图方法的一种改进,它是基于这种假设下提出的,链接到同一个网页的那些网页,它们往往有相关的内容,语义相关的一些网页,它们也会链接到内容相关的一些网页上。但是这两种方法对相似度的判断只是停留在关键字匹配的层面上。而概念语义背景图,把相似度的计算提前到了概念的层面上,作语义上的匹配,可以更好地计算用户兴趣与网页的相关度。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于概念语义背景图挖掘用户兴趣的方法,解决现有技术中在网络主体爬行中相似度的判断仅仅停留在关键字匹配层面上的问题。
本发明提供了一种基于概念语义背景图挖掘用户兴趣的方法,包括以下步骤:(A)系统服务器采集用户主题数据;(B)系统服务器建立用户主题兴趣模型;(C)系统服务器建立概念语义背景图;(D)系统服务器更新概念语义背景图以更新用户主题兴趣数据。
作为本发明的进一步改进,所述步骤(A)中,系统服务器把用户的查询词提交给搜索引擎并在返回页的结果中让用户选择有兴趣的网页并构成用户的主题兴趣集合。
作为本发明的进一步改进,所述步骤(B)中,系统服务器通过主题兴趣集合建立反映用户兴趣的概念图;所述系统服务器在建立用户主题兴趣模型之前先构建概念格。
作为本发明的进一步改进,所述步骤(C)中,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图。
作为本发明的进一步改进,所述步骤(D)中,所述系统服务器增加或减少概念语义背景图。
作为本发明的进一步改进,所述系统服务器将概念格转换为可以直观表示网页间的语义关系的概念语义背景图的具体方法为:系统服务器先确定核心概念并将核心概念放入概念背景图的第0层, 然后再利用概念格中每个概念的属性个数的多少,把概念格中的概念映射到概念背景图相应的层次当中去。
作为本发明的进一步改进,系统服务器利用概念格的属性词给概念格中的概念分层,其分层方法为:概念格中的核心概念插入到概念背景图中,作为概念背景图的第0层;概念格的非核心概念中,完全包含核心概念的属性词并与核心概念有较高的相似度的属性词作为概念背景图的第一层的结点;剩余的非核心概念集中,包含(N-i+1)个核心概念的属性词的概念,作为概念背景图的第i 层,其中N表示核心概念中的属性词的个数,i∈[1,N]。
作为本发明的进一步改进,系统服务器搜集用户选择的网页,形成兴趣主题网页集合,再对网页集合进行分词处理、特征抽取,并计算特征权值,然后对这些特征按照权值大小排序,选择排在前面的特征作为构建概念格的属性集合。
作为本发明的进一步改进,所述属性集合包括人工智能、机器学习、知识发现、agent技术、模式识别、自然语言处理、特征提取、机器翻译以及知识表示。
本发明的有益效果是:概念语义背景图的提出,有利于网络爬行虫更好地选择爬行方向,与广度优先和传统的主题爬行方法相比,它可以在浩瀚的互联网海洋中更快、更高效地发现用户感兴趣的网页;同时,它把相似度的计算提前到了概念的层面上,进行语义上的匹配,可以更好地计算用户兴趣与网页的相关度。
【附图说明】
图1是本发明基于概念语义背景图挖掘用户兴趣的方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110252770.1/2.html,转载请声明来源钻瓜专利网。





