[发明专利]一种基于二元和三元共词潜在语义信息的文献表示方法有效

专利信息
申请号: 201710096317.3 申请日: 2017-02-22
公开(公告)号: CN106844301B 公开(公告)日: 2020-04-17
发明(设计)人: 牛奉高 申请(专利权)人: 山西大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/117;G06F40/284
代理公司: 山西五维专利事务所(有限公司) 14105 代理人: 郭海燕
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 二元 三元 潜在 语义 信息 文献 表示 方法
【权利要求书】:

1.一种基于二元和三元共词潜在语义信息的文献表示方法,其特征是包括以下步骤:

第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;

第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;

第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:

dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n

其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m

第四步:三元共现层矩阵表示

其中:表示第j个关键词与所有关键词对(ti,tk)i,k=1,2,…,m的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;

第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;

第六步:三元共现频次的计算:

由于ci∪j∪k=ci+cj+ck-cij-cjk-cik+cijk所以三元共现频次为

cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik)

其中ci∪j∪k为至少包含(ti,tj,tk)三词之一的文献篇数,可由“篇-词”矩阵A=(alj)n×m得到;cij、cjk和cik为关键词两两共现的频次,ci,cj和ck分别为第i,j,k个关键词各自的频次,可由关键词之间的共词矩阵C=ATA得到;

第七步:共现强度计算:

(1)二元共现强度计算:

其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;

(2)三元共现强度计算:

bijk为第i,j,k个关键词的三元共现强度;

第八步:二元和三元加权共现潜在语义向量空间模型的构建

其中,

btj为第t个关键词与第j个关键词的共现强度,Il1={j|alj=1}为矩阵A中第l行中所有alj=1的j的指标集,t∈Il1表示t为Il1的取值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710096317.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top