[发明专利]文本特征提取方法、模型训练方法、装置、设备及介质在审
申请号: | 202210921235.9 | 申请日: | 2022-08-02 |
公开(公告)号: | CN115168590A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 郑侃;齐家驹;侯璐 | 申请(专利权)人: | 北京极智感科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京启焱知识产权代理有限公司 11894 | 代理人: | 李成龙 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 特征 提取 方法 模型 训练 装置 设备 介质 | ||
本公开实施例提供了一种文本特征提取方法、模型训练方法、装置、设备及介质。该文本特征提取方法包括获取专利文本,所述专利文本包括多个词语,确定所述多个词语中的每个词语的第一特征向量,对于每个词语,确定该词语与所述多个词语中的每个词语之间的相似度,基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量,以及通过卷积层处理所述第二特征向量,得到专利文本特征。
技术领域
本说明书涉及自然语言处理领域,尤其涉及一种文本特征提取方法、模型训练方法、装置、设备及介质。
背景技术
专利作为现代社会科学技术发展的衡量标志,在一定程度上起到风向标的作用。通过研究专利的发展脉络、提交数量、研究方向等信息,人们可以了解当下的技术热点、空白和壁垒,并推测下一个重要的技术爆发点等重要信息。这种专利研究决策的工作需要从海量专利文本中整理出有效信息。
专利的向量化表示是研究专利的一种重要方法,通过文本处理算法提取专利特征向量作为专利的表征方式,以便于专利工作者利用数学方法对专利进行进一步分析。现有类似的专利特征向量提取方法主要通过统计所提取的专利文本中各个名词和动词出现的频率,基于词频较高的多个名词和动词构建对应专利的特征向量。然而该方法丢失的信息较多,导致后续分析的效果较差。
发明内容
为解决相关技术中的问题,本公开实施例提供了一种文本特征提取方法、模型训练方法、装置、设备及介质。
本公开的一个方面提供了一种文本特征提取方法,包括:获取专利文本,所述专利文本包括多个词语,确定所述多个词语中的每个词语的第一特征向量,对于每个词语,确定该词语与所述多个词语中的每个词语之间的相似度,基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量,以及通过卷积层处理所述第二特征向量,得到专利文本特征。
本公开的另一个方面提供了一种模型训练方法,该模型包括编码器和分类器,该方法包括:获取多篇专利文本以及所述专利文本的分类标签,通过编码器处理所述专利文本,得到专利文本特征,通过分类器处理所述专利文本特征,得到分类预测结果,基于所述分类标签和分类预测结果,训练所述编码器和分类器。
本公开的另一个方面提供了一种文本特征提取装置,包括:第一获取模块、第一确定模块、第二确定模块、第一处理模块以及第二处理模块。第一获取模块,被配置为获取专利文本,所述专利文本包括多个词语。第一确定模块,被配置为确定所述多个词语中的每个词语的第一特征向量。第二确定模块,被配置为对于每个词语,确定该词语与所述多个词语中的每个词语之间的相似度。第一处理模块,被配置为基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量。第二处理模块,被配置为通过卷积层处理所述第二特征向量,得到专利文本特征。
本公开的另一个方面提供了一种模型训练装置,其中,所述模型包括编码器和分类器,所述装置包括第二获取模块、特征提取模块、第三处理模块以及训练模块。第二获取模块,被配置为获取多篇专利文本以及所述专利文本的分类标签。特征提取模块,被配置为通过编码器处理所述专利文本,得到专利文本特征。第三处理模块,被配置为通过分类器处理所述专利文本特征,得到分类预测结果。训练模块,被配置为基于所述分类标签和分类预测结果,训练所述编码器和分类器。
本公开的另一个方面提供了一种电子设备,包括至少一个处理器以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
本公开的另一个方面提供了一种计算机可读存储介质,存储有计算机可读指令,所述指令在被处理器执行时用于实现如上所述的方法。
本公开的另一个方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京极智感科技有限公司,未经北京极智感科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210921235.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种姜陈含片及其制备方法
- 下一篇:用于自助设备的锁装置