[发明专利]一种专利文本新颖性/创造性预测方法及装置在审
申请号: | 202110998664.1 | 申请日: | 2021-08-27 |
公开(公告)号: | CN113836261A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 杨沐昀;张明明;徐冰;赵增琴;朱聪慧;赵铁军;曹海龙 | 申请(专利权)人: | 哈尔滨工业大学;黑龙江阳光惠远信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F40/289;G06Q50/18 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专利 文本 新颖性 创造性 预测 方法 装置 | ||
一种专利文本新颖性/创造性预测方法及装置,涉及自然语言处理中的文本匹配技术,目的是为了对专利申请文件的新颖性和/或创造性进行初步的预测判断。所述方法包括:利用主题模型对待预测专利文本与授权专利文本进行处理,得到各关键词的主题分布;计算各专利文本的各关键词的主题分布平均值;利用BERT模型对待预测专利文本与授权专利文本进行处理;将各专利文本的各关键词的主题分布的平均值和BERT模型的输出进行拼接,然后输入至全连接层;利用激活函数对全连接层的输出进行计算,得到待预测专利文本具备新颖性/创造性的概率。所述装置包括主题模块、主题分布平均值计算模块、BERT模块、拼接模块和概率计算模块。
技术领域
本申请涉及自然语言处理中的文本匹配技术。
背景技术
专利不仅是一种重要的财产权和无形资产,而且是企业的一种重要的竞争资源,专利发展水平更是成为衡量一个地区综合实力、发展能力和核心竞争力的战略性标志。
经统计发现,专利申请不授权的主要原因是权利要求不具备专利法规定的新颖性和/或创造性,因此,在专利申请文件撰写完成后,对专利申请文件的新颖性和/或创造性进行初步的预测判断是很有必要的。
发明内容
本申请的目的是为了满足现有技术的发展需求,提供一种专利文本新颖性/创造性预测方法及装置。
本申请的一种专利文本新颖性/创造性预测方法包括:
利用主题模型对待预测专利文本与授权专利文本进行处理,得到所述待预测专利文本的各关键词的主题分布和所述授权专利文本的各关键词的主题分布;
计算所述待预测专利文本的各关键词的主题分布的平均值和所述授权专利文本的各关键词的主题分布的平均值;
利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理;
将所述待预测专利文本的各关键词的主题分布的平均值、所述授权专利文本的各关键词的主题分布的平均值、以及所述BERT模型的输出进行拼接,得到拼接矩阵,并利用全连接层对所述拼接矩阵进行处理;
利用激活函数对所述全连接层的输出进行计算,得到所述待预测专利文本具备新颖性/创造性的概率。
可选地,所述授权专利文本的数量为一个。
可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和所述授权专利文本的关键词,形成所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和所述授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的数量为两个。
可选地,在利用BERT模型对所述待预测专利文本与所述授权专利文本进行处理之前,所述方法还包括:
提取所述待预测专利文本和两个授权专利文本的关键词,形成每个专利文本的关键词序列;
在所述待预测专利文本的关键词序列前面增加[CLS],在所述待预测专利文本的关键词序列和一个授权专利文本的关键词序列之间、以及两个授权专利文本的关键词序列之间增加[SEP]分隔符,然后输入至所述BERT模型。
可选地,所述授权专利文本的获取方法包括:
利用Word2vec对所述待预测专利文本和数据库中所有法律状态为授权的专利文档进行向量化编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;黑龙江阳光惠远信息技术有限公司,未经哈尔滨工业大学;黑龙江阳光惠远信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110998664.1/2.html,转载请声明来源钻瓜专利网。