[发明专利]一种文献完成者研究兴趣图聚类方法、装置、设备及介质有效
申请号: | 202310638200.9 | 申请日: | 2023-06-01 |
公开(公告)号: | CN116561605B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 周朝;林天宇;褚晓泉;段毅成;仇瑜;刘德兵 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F18/23 | 分类号: | G06F18/23;G06F18/214;G06F18/22;G06F17/16;G06F17/18 |
代理公司: | 北京佳信天和知识产权代理事务所(普通合伙) 11939 | 代理人: | 田英楠 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 完成 研究 兴趣 图聚类 方法 装置 设备 介质 | ||
1.一种文献完成者研究兴趣图聚类方法,其特征在于,包括以下步骤:
获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
2.根据权利要求1所述的文献完成者研究兴趣图聚类方法,其特征在于:所述目标完成者的信息包括常用名、常用邮箱或者所在机构;
所述根据所述信息获取所述目标完成者的文献数据集,包括:
根据所述常用名在文献数据库中进行检索以获得文献集S1;
根据所述常用邮箱或者所述所在机构对所述文献集S1进行筛选以获得所述文献数据集,所述文献数据集包括文献的基本属性,所述基本属性包括文献标题、摘要、发表地、关键词、引文关系以及合作者姓名与所属单位中的一种或多种的组合。
3.根据权利要求2所述的文献完成者研究兴趣图聚类方法,其特征在于:所述根据所述文献数据集构建文献网络图包括:
采用OAG-BERT学术语言大模型基于所述基本属性生成各所述文献的特征向量;
根据所述特征向量采用余弦相似度算法构建各所述文献间的相似度指标矩阵,所述相似度指标矩阵表示为:
,其中TS-index表示相似度指标矩阵,表示文献i与文献j之间的文本相似度,表示文献i的特征向量,表示文献j的特征向量;
根据所述引文关系构建各所述文献间的引用指标矩阵,所述引用指标矩阵表示为:
,其中CR-index表示引用指标矩阵,表示文献i对文献j的引用指标,表示文献i的参考文献总数;
将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,基于所述文献关系指标矩阵构建所述文献网络图,所述文献网络图表示为:
为所述目标完成者的文献j,,PR-value表示所述文献关系指标矩阵,表示文献i与文献j的文献关系指数。
4.根据权利要求3所述的文献完成者研究兴趣图聚类方法,其特征在于:所述通过熵权法将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,包括:
通过熵权法计算相似度指标和引用指标各自的权重;
根据所述权重融合所述相似度指标矩阵和所述引用指标矩阵以生成所述文献关系指标矩阵,计算公式表示为:
,其中PR-value表示所述文献关系指标矩阵,TS-index表示相似度指标矩阵,表示相似度指标的权重,CR-index表示引用指标矩阵,表示引用指标的权重。
5.根据权利要求4所述的文献完成者研究兴趣图聚类方法,其特征在于:所述通过熵权法计算相似度指标和引用指标各自的权重,包括:
根据每一指标中的若干文献数据样本,计算在每一指标下每一所述文献数据样本的比重,所述指标包括相似度指标和引用指标,计算公式表示为:
,其中表示第j项指标下第i个文献数据样本所占的比重,表示第j项指标下第i个文献数据样本,i/n表示i整除n的结果,i mod n表示i对n取余数;
根据所述比重计算每一所述指标的信息熵,计算公式表示为:
,其中表示第j个指标的信息熵,;
根据所述信息熵计算所述指标的权重,计算公式表示为:
,其中表示指标j的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310638200.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能型绿色建筑材料及其制备方法
- 下一篇:一种小型化真空固封式环网柜