[发明专利]一种基于二元和三元共词潜在语义信息的文献表示方法有效

专利信息
申请号: 201710096317.3 申请日: 2017-02-22
公开(公告)号: CN106844301B 公开(公告)日: 2020-04-17
发明(设计)人: 牛奉高 申请(专利权)人: 山西大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/117;G06F40/284
代理公司: 山西五维专利事务所(有限公司) 14105 代理人: 郭海燕
地址: 030006 山*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。本发明一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步:三元共现层矩阵表示;第五步:计算关键词之间的共词矩阵;第六步:三元共现频次的计算;第七步:共现强度计算;第八步:二元、三元加权CLSVSM的构建。
搜索关键词: 一种 基于 二元 三元 潜在 语义 信息 文献 表示 方法
【主权项】:
一种基于二元和三元共词潜在语义信息的文献表示方法,其特征是包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇‑词”矩阵A=(alj)n×m;第四步:三元共现层矩阵表示Cj(3)=C(3)(tj)=ATdiag(t→j)A,j=1,2,...,m]]>其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,m)的三元共现矩阵,称为三元共现的第j层,为“篇‑词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;第六步:三元共现频次的计算:由于ci∪j∪k=ci+cj+ck‑cij‑cjk‑cik+cijk所以三元共现频次为cijk=ci∪j∪k‑(ci+cj+ck)+(cij+cjk+cik)其中ci∪j∪k为至少包含(ti,tj,tk)三词之一的文献篇数,可由“篇‑词”矩阵A=(alj)n×m得到;cij、cjk和cik为关键词两两共现的频次,ci,cj和ck分别为第i,j,k个关键词各自的频次,可由关键词之间的共词矩阵C=ATA得到;第七步:共现强度计算:(1)二元共现强度计算:B=(bij)m×m=diag(1/c11,1/c22,...,1/cmm)·AT·A·diag(1/c11,1/c22,...,1/cmm)]]>bij=cijciicjj,(i,j=1,2,...,m)]]>其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;(2)三元共现强度计算:bijk=cijkcijcjkcik3,i,j,k=1,2,...,m.]]>bijk为第i,j,k个关键词的三元共现强度;第八步:二元和三元加权CLSVSM的构建其中,Il1={j|alj=1}为所有alj=1的j的指标集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710096317.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top