[发明专利]文本特征提取方法、模型训练方法、装置、设备及介质在审
申请号: | 202210921235.9 | 申请日: | 2022-08-02 |
公开(公告)号: | CN115168590A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 郑侃;齐家驹;侯璐 | 申请(专利权)人: | 北京极智感科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京启焱知识产权代理有限公司 11894 | 代理人: | 李成龙 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 特征 提取 方法 模型 训练 装置 设备 介质 | ||
1.一种文本特征提取方法,包括:
获取专利文本,所述专利文本包括多个词语;
确定所述多个词语中的每个词语的第一特征向量;
对于每个词语,确定该词语与所述多个词语中的每个词语之间的相似度;
基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量;
通过卷积层处理所述第二特征向量,得到专利文本特征。
2.根据权利要求1所述的方法,其中,所述确定所述多个词语中的每个词语的第一特征向量,包括:
基于关联主题模型算法处理所述专利文本中的多个词语,得到多个主题;
确定每个词语属于每个主题的概率;
基于所述概率构建第一特征向量。
3.根据权利要求2所述的方法,其中,所述确定所述多个词语中的每个词语的第一特征向量,还包括:
基于word2vec确定所述多个词语中的每个词语的第一特征向量。
4.根据权利要求1-3任一项所述的方法,其中,词语i的第一特征向量为qi,词语j的第一特征向量为qj,词语i和词语j的相似度为aij,词语的数量为N,所述基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量包括:
对于每个词语i,将该词语的所有相似度规范化,得到
确定第二特征向量
5.根据权利要求2所述的方法,其中,所述通过卷积层处理所述第二特征向量,得到专利文本特征,包括:
筛选所述第二特征向量,包括,对于每个词语,若所述第二特征向量中的值均不大于阈值,则剔除所述词语;
通过卷积层处理筛选后的第二特征向量,得到专利文本特征。
6.根据权利要求1所述的方法,其中,所述专利文本包括说明书摘要、独立权利要求、从属权利要求、具体实施方式中的部分或全部。
7.一种模型训练方法,其中,所述模型包括编码器和分类器,所述方法包括:
获取多篇专利文本以及所述专利文本的分类标签;
通过编码器执行如权利要求1-6任一项所述的方法,以处理所述专利文本,得到专利文本特征;
通过分类器处理所述专利文本特征,得到分类预测结果;
基于所述分类标签和分类预测结果,训练所述编码器和分类器。
8.根据权利要求7所述的方法,其中,获取所述专利文本的分类标签,包括:
基于所述专利文本的分类号确定专利文本的一级类目;
通过关联主题模型算法确定同一一级类目下的多个二级类目,以及所述专利文本属于每个二级类目的概率;
选取概率最大的二级类目作为所述专利文本的分类标签。
9.一种文本特征提取装置,包括:
第一获取模块,被配置为获取专利文本,所述专利文本包括多个词语;
第一确定模块,被配置为确定所述多个词语中的每个词语的第一特征向量;
第二确定模块,被配置为对于每个词语,确定该词语与所述多个词语中的每个词语之间的相似度;
第一处理模块,被配置为基于所述相似度加权处理所述第一特征向量,得到每个词语的第二特征向量;
第二处理模块,被配置为通过卷积层处理所述第二特征向量,得到专利文本特征。
10.一种模型训练装置,其中,所述模型包括编码器和分类器,所述装置包括:
第二获取模块,被配置为获取多篇专利文本以及所述专利文本的分类标签;
特征提取模块,被配置为通过编码器执行如权利要求1-6任一项所述的方法,以处理所述专利文本,得到专利文本特征;
第三处理模块,被配置为通过分类器处理所述专利文本特征,得到分类预测结果;
训练模块,被配置为基于所述分类标签和分类预测结果,训练所述编码器和分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京极智感科技有限公司,未经北京极智感科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210921235.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种姜陈含片及其制备方法
- 下一篇:用于自助设备的锁装置