[发明专利]一种基于二元和三元共词潜在语义信息的文献表示方法有效
申请号: | 201710096317.3 | 申请日: | 2017-02-22 |
公开(公告)号: | CN106844301B | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 牛奉高 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/117;G06F40/284 |
代理公司: | 山西五维专利事务所(有限公司) 14105 | 代理人: | 郭海燕 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。本发明一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步:三元共现层矩阵表示;第五步:计算关键词之间的共词矩阵;第六步:三元共现频次的计算;第七步:共现强度计算;第八步:二元、三元加权CLSVSM的构建。 | ||
搜索关键词: | 一种 基于 二元 三元 潜在 语义 信息 文献 表示 方法 | ||
【主权项】:
一种基于二元和三元共词潜在语义信息的文献表示方法,其特征是包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇‑词”矩阵A=(alj)n×m;第四步:三元共现层矩阵表示Cj(3)=C(3)(tj)=ATdiag(t→j)A,j=1,2,...,m]]>其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,m)的三元共现矩阵,称为三元共现的第j层,为“篇‑词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;第六步:三元共现频次的计算:由于ci∪j∪k=ci+cj+ck‑cij‑cjk‑cik+cijk所以三元共现频次为cijk=ci∪j∪k‑(ci+cj+ck)+(cij+cjk+cik)其中ci∪j∪k为至少包含(ti,tj,tk)三词之一的文献篇数,可由“篇‑词”矩阵A=(alj)n×m得到;cij、cjk和cik为关键词两两共现的频次,ci,cj和ck分别为第i,j,k个关键词各自的频次,可由关键词之间的共词矩阵C=ATA得到;第七步:共现强度计算:(1)二元共现强度计算:B=(bij)m×m=diag(1/c11,1/c22,...,1/cmm)·AT·A·diag(1/c11,1/c22,...,1/cmm)]]>bij=cijciicjj,(i,j=1,2,...,m)]]>其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;(2)三元共现强度计算:bijk=cijkcijcjkcik3,i,j,k=1,2,...,m.]]>bijk为第i,j,k个关键词的三元共现强度;第八步:二元和三元加权CLSVSM的构建其中,Il1={j|alj=1}为所有alj=1的j的指标集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710096317.3/,转载请声明来源钻瓜专利网。
- 上一篇:自动套袋机
- 下一篇:一种全自动棉签封装机组