[发明专利]一种专利文本相似度计算方法在审

申请号：	201810310246.7	申请日：	2018-04-09
公开（公告）号：	CN108536677A	公开（公告）日：	2018-09-14
发明（设计）人：	吕学强;董志安	申请（专利权）人：	北京信息科技大学;吕学强
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专利文本文本相似度相似度计算专利数据权重预处理向量空间模型结构融合语义关系专利结构综合考虑词位置词向量权重和相似度阈值时准确率词性算法词汇应用保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种专利文本相似度计算方法，其特征在于，包括以下步骤：

步骤1)从两个专利文本中提取专利数据，对专利数据进行预处理；

步骤2)将词性权重和词位置权重与TF-IDF算法相结合计算出词权重；

步骤3)将两个专利文本以向量空间模型表示出来，得到两个分布式词向量；

步骤4)计算文本相似度，当得到的专利文本相似度大于设定的阈值时，则认为两篇专利相似，否则不相似。

2.根据权利要求1所述的专利文本相似度计算方法，其特征在于，在所述步骤1)中，对专利数据进行预处理包括：对专利数据进行分词、词性标注、去除停用词、命名实体识别和新发现词的操作，并去除除了名词、动词或名词性短语以外的词性的词汇。

3.根据权利要求1-2所述的专利文本相似度计算方法，其特征在于，在所述步骤2)中，将词位置权重大小设置为W(IPC分类号)＞W(权利要求书)＞W(摘要)＞W(标题)。

4.根据权利要求1-3所述的专利文本相似度计算方法，其特征在于，在所述步骤2)中，通过设置不同的词频基数来体现词性权重的不同。

5.根据权利要求1-4所述的专利文本相似度计算方法，其特征在于，词性为动词的词汇词频数设置为等于该词汇出现的实际次数，词性为名词性短语的词汇词频数设置为等于该词汇出现的实际次数的3倍。

6.根据权利要求1-5所述的专利文本相似度计算方法，其特征在于，在所述步骤2)中，通过设置不同的词频基数来体现词位置权重的不同。

7.根据权利要求1-6所述的专利文本相似度计算方法，其特征在于，文本相似度计算公式为：

C(x，y)代表两个词汇x和y语义信息接近程度，其计算公式为：

C(x，y)＝cos(x，y)*W(x)*W(y)，

W(x)代表结合词性权重、词位置权重和TF-IDF算法得到的词汇x的词权重，S为两个专利文本P₁，P₂的相似度计算公式，IPC₁，IPC₂分别代表专利文本P₁，P₂的IPC分类号，K₁，K₂分别代表专利文本P₁，P₂的特征词集合，m，n分别代表特征词集合K₁，K₂中的特征词。

8.根据权利要求1-7所述的专利文本相似度计算方法，其特征在于，所述步骤3)是通过word2vec实现的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强，未经北京信息科技大学;吕学强许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810310246.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载