[发明专利]一种专利文本相似度计算方法在审
申请号: | 201810310246.7 | 申请日: | 2018-04-09 |
公开(公告)号: | CN108536677A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 吕学强;董志安 | 申请(专利权)人: | 北京信息科技大学;吕学强 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专利文本 文本相似度 相似度计算 专利数据 权重 预处理 向量空间模型 结构融合 语义关系 专利结构 综合考虑 词位置 词向量 权重和 相似度 阈值时 准确率 词性 算法 词汇 应用 保证 | ||
1.一种专利文本相似度计算方法,其特征在于,包括以下步骤:
步骤1)从两个专利文本中提取专利数据,对专利数据进行预处理;
步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重;
步骤3)将两个专利文本以向量空间模型表示出来,得到两个分布式词向量;
步骤4)计算文本相似度,当得到的专利文本相似度大于设定的阈值时,则认为两篇专利相似,否则不相似。
2.根据权利要求1所述的专利文本相似度计算方法,其特征在于,在所述步骤1)中,对专利数据进行预处理包括:对专利数据进行分词、词性标注、去除停用词、命名实体识别和新发现词的操作,并去除除了名词、动词或名词性短语以外的词性的词汇。
3.根据权利要求1-2所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,将词位置权重大小设置为W(IPC分类号)>W(权利要求书)>W(摘要)>W(标题)。
4.根据权利要求1-3所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,通过设置不同的词频基数来体现词性权重的不同。
5.根据权利要求1-4所述的专利文本相似度计算方法,其特征在于,词性为动词的词汇词频数设置为等于该词汇出现的实际次数,词性为名词性短语的词汇词频数设置为等于该词汇出现的实际次数的3倍。
6.根据权利要求1-5所述的专利文本相似度计算方法,其特征在于,在所述步骤2)中,通过设置不同的词频基数来体现词位置权重的不同。
7.根据权利要求1-6所述的专利文本相似度计算方法,其特征在于,文本相似度计算公式为:
C(x,y)代表两个词汇x和y语义信息接近程度,其计算公式为:
C(x,y)=cos(x,y)*W(x)*W(y),
W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重,S为两个专利文本P1,P2的相似度计算公式,IPC1,IPC2分别代表专利文本P1,P2的IPC分类号,K1,K2分别代表专利文本P1,P2的特征词集合,m,n分别代表特征词集合K1,K2中的特征词。
8.根据权利要求1-7所述的专利文本相似度计算方法,其特征在于,所述步骤3)是通过word2vec实现的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强,未经北京信息科技大学;吕学强许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810310246.7/1.html,转载请声明来源钻瓜专利网。