[发明专利]一种术语抽取方法、装置、设备及存储介质在审

申请号：	202111494808.6	申请日：	2021-12-08
公开（公告）号：	CN114154499A	公开（公告）日：	2022-03-08
发明（设计）人：	王超;郑力;杨声春;游佳川;何诺;覃杨微;徐欣欣;王璇;刘馨杨;袁文忆	申请（专利权）人：	重庆农村商业银行股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/04;G06N3/08
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	吴磊
地址：	400000 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种术语抽取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种术语抽取方法，其特征在于，包括：

获取训练数据集；其中，所述训练数据集中包含当前场景下指定领域的术语及对应标注，所述标注包括对应术语的词性标注及序列标注；

利用所述训练数据集对预设模型进行训练，得到术语抽取模型；

确定当前场景下需要进行术语抽取的句子为待抽取句子，对所述待抽取句子进行分词处理，将当前分词处理所得的各词语均输入至所述术语抽取模型，并基于所述术语抽取模型输出的信息确定相应词语为术语。

2.根据权利要求1所述的方法，其特征在于，获取训练数据集，包括：

获取包含全部场景下指定领域的术语的术语种子集合，并获取包含当前场景下指定领域的文档的文档集合；

对所述文档集合中的各文档进行拆分得到相应的句子，对拆分所得的句子进行分词处理，确定当前分词处理所得的各词语中存在于所述术语种子集合中的词语为待标注词语，对所述待标注词语分别进行词性标注和序列标注，并将标注完成的待标注词语作为术语形成所述训练数据集。

3.根据权利要求2所述的方法，其特征在于，将当前分词处理所得的各词语均输入至所述术语抽取模型之后，还包括：

确定停用词及特定词长的词语均为待删除词语，并删除所述术语抽取模型输出的词语中存在的待删除词语。

4.根据权利要求3所述的方法，其特征在于，删除所述术语抽取模型输出的词语中存在的待删除词语之后，还包括：

将所述术语抽取模型输出的、删除所述待删除词语后所得的词语输出至人工审核终端，并删除所述术语抽取模型输出的、删除所述待删除词语后所得的词语中，所述人工审核终端反馈的未通过审核的词语。

5.根据权利要求4所述的方法，其特征在于，删除所述人工审核终端反馈的未通过审核的词语之后，还包括：

将所述术语抽取模型输出的、删除所述待删除词语及所述人工审核终端反馈的未通过审核的词语后所得的词语，作为术语加入至所述术语种子集合。

6.根据权利要求5所述的方法，其特征在于，获取包含全部场景下指定领域的术语的术语种子集合，包括：

采用网络爬虫的方式获取包含全部场景下指定领域的术语的术语种子集合。

7.根据权利要求6所述的方法，其特征在于，所述预设模型为利用BERT、BiLSTM及CRF进行联合建模所得的模型。

8.一种术语抽取装置，其特征在于，包括：

获取模块，用于：获取训练数据集；其中，所述训练数据集中包含当前场景下指定领域的术语及对应标注，所述标注包括对应术语的词性标注及序列标注；

训练模块，用于：利用所述训练数据集对预设模型进行训练，得到术语抽取模型；

抽取模块，用于：确定当前场景下需要进行术语抽取的句子为待抽取句子，对所述待抽取句子进行分词处理，将当前分词处理所得的各词语均输入至所述术语抽取模型，并基于所述术语抽取模型输出的信息确定相应词语为术语。

9.一种术语抽取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述术语抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述术语抽取方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆农村商业银行股份有限公司，未经重庆农村商业银行股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111494808.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载