[发明专利]一种基于知识库的词汇关系链分析方法、系统及装置有效
申请号: | 201710948034.7 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107844526B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 张毅 | 申请(专利权)人: | 广州艾媒数聚信息咨询股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F16/36;G06F40/284 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识库 词汇 关系 分析 方法 系统 装置 | ||
本发明公开了一种基于知识库的词汇关系链分析方法、系统及装置,包括根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。本发明通过在知识库和百科平台搜索库中进行分析,得到词与词之间的关系链,并通过列表进行展示,清楚直观,从而在资讯推荐过程中能够更好的处理优先级、相关性的问题,可广泛应用于知识库中。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于知识库的词汇关系链分析方法、系统及装置。
背景技术
推荐理论中,有一种理论方法叫基于知识库的推荐方法,主要是处理词与词之间关系强弱问题,目前没有开放的接口或系统提供这种服务,要使用这个推荐方法,必须搭建、维护一套知识库网络,然而现在的知识库网络中词汇之间的关系链比较薄弱,不能很好适用于进行资讯推荐。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能清楚直观,且基于知识库的词汇关系链分析方法、系统及装置。
本发明所采取的技术方案是:
一种基于知识库的词汇关系链分析方法,包括以下步骤:
根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表;
根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表;
根据关联词列表、关联组合列表和百科搜索关联词列表,得到需分析词汇的关系链分析结果。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,搜索知识库中对应的资讯文章,建立得到对应的关联词列表和关联组合列表,这一步骤具体包括:
根据需分析词汇,在知识库中搜索得到对应的资讯文章;
对得到的资讯文章进行切词处理,生成得到资讯文章的标签,进而得到资讯文章中除去需分析词汇以外的标签作为关联词;
对需分析词汇和关联词进行哈希值计算,并统计需分析词汇和关联词的词频,进而建立得到对应的关联词列表;
将关联词进行两两组合,并统计关联词组合后的出现次数,进而建立得到对应的关联组合列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的根据需分析词汇,在各百科平台搜索库中进行搜索,建立得到对应的百科搜索关联词列表,这一步骤具体包括:
根据需分析词汇,在各百科平台搜索库中进行搜索,得到各百科平台的搜索结果;
对得到的各百科平台的搜索结果进行切词处理,得到搜索结果中的词汇,进而得到搜索结果中除去需分析词汇以外的词汇作为搜索关联词;
对搜索关联词进行哈希值计算,并分别统计各百科平台的搜索关联词的词频;
将各百科平台的搜索关联词的种类进行交集处理,得到取交集后的搜索关联词;
根据取交集后的搜索关联词,对其词频进行平均数计算,进而建立得到对应的百科搜索关联词列表。
作为所述的一种基于知识库的词汇关系链分析方法的进一步改进,所述的哈希值计算具体为:
通过HMAC-SHA1算法计算后,再转成十六进制,最后转化为长整型。
本发明所采用的另一个技术方案是:
一种基于知识库的词汇关系链分析系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司,未经广州艾媒数聚信息咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710948034.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电车控制装置
- 下一篇:包括至少两个相互铰接连接的汽车部分的汽车