[发明专利]一种专利文本相似度计算方法在审

申请号：	201810310246.7	申请日：	2018-04-09
公开（公告）号：	CN108536677A	公开（公告）日：	2018-09-14
发明（设计）人：	吕学强;董志安	申请（专利权）人：	北京信息科技大学;吕学强
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种专利文本相似度计算方法，包括以下步骤：从两个专利文本中提取专利数据，对专利数据进行预处理；将词性权重和词位置权重与TF‑IDF算法相结合计算出词权重；将两个专利文本以向量空间模型表示出来，得到两个分布式词向量；计算文本相似度，当得到的专利文本相似度大于设定的阈值时，则认为两篇专利相似，否则不相似。本发明综合考虑了专利结构特点和词汇间语义关系，将IPC分类号、摘要、权利要求书等专利文本特有的结构融合到文本相似度计算方法当中，比一般文本相似度计算方法更加具有针对性，能保证较高的准确率和召回率，可以很好地满足实际应用的需要。
搜索关键词：	专利文本文本相似度相似度计算专利数据权重预处理向量空间模型结构融合语义关系专利结构综合考虑词位置词向量权重和相似度阈值时准确率词性算法词汇应用保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种专利文本相似度计算方法，其特征在于，包括以下步骤：步骤1)从两个专利文本中提取专利数据，对专利数据进行预处理；步骤2)将词性权重和词位置权重与TF‑IDF算法相结合计算出词权重；步骤3)将两个专利文本以向量空间模型表示出来，得到两个分布式词向量；步骤4)计算文本相似度，当得到的专利文本相似度大于设定的阈值时，则认为两篇专利相似，否则不相似。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强，未经北京信息科技大学;吕学强许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810310246.7/，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、电子设备及存储介质
下一篇：文本关键信息提取方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种专利文本相似度计算方法在审

专利文献下载