[发明专利]一种术语抽取方法、装置、设备及存储介质在审
| 申请号: | 202111494808.6 | 申请日: | 2021-12-08 |
| 公开(公告)号: | CN114154499A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 王超;郑力;杨声春;游佳川;何诺;覃杨微;徐欣欣;王璇;刘馨杨;袁文忆 | 申请(专利权)人: | 重庆农村商业银行股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 吴磊 |
| 地址: | 400000 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 术语 抽取 方法 装置 设备 存储 介质 | ||
本发明公开了一种术语抽取方法、装置、设备及存储介质,该方法包括:获取训练数据集;利用所述训练数据集对预设模型进行训练,得到术语抽取模型;确定当前场景下需要进行术语抽取的句子为待抽取句子,对所述待抽取句子进行分词处理,将当前分词处理所得的各词语均输入至所述术语抽取模型,并基于所述术语抽取模型输出的信息确定相应词语为术语;其中,所述训练数据集中包含当前场景下指定领域的术语及对应标注,所述标注包括对应术语的词性标注及序列标注。标注的句子中的词语输入至术语抽取模型,即可得到该句子中包含的术语,从而能够快速高效的实现特定领域中的术语抽取。
技术领域
本发明涉及信息处理技术领域,更具体地说,涉及一种术语抽取方法、装置、设备及存储介质。
背景技术
术语是表达特定领域学科的基本概念的语言单元,是相对固定的词语或词组,其具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域,是信息处理领域的基础研究任务之一,但是目前缺少一种高效的方法抽取特定领域中的术语。
发明内容
本发明的目的是提供一种术语抽取方法、装置、设备及存储介质,能够快速高效的实现特定领域中的术语抽取。
为了实现上述目的,本发明提供如下技术方案:
一种术语抽取方法,包括:
获取训练数据集;其中,所述训练数据集中包含当前场景下指定领域的术语及对应标注,所述标注包括对应术语的词性标注及序列标注;
利用所述训练数据集对预设模型进行训练,得到术语抽取模型;
确定当前场景下需要进行术语抽取的句子为待抽取句子,对所述待抽取句子进行分词处理,将当前分词处理所得的各词语均输入至所述术语抽取模型,并基于所述术语抽取模型输出的信息确定相应词语为术语。
优选的,获取训练数据集,包括:
获取包含全部场景下指定领域的术语的术语种子集合,并获取包含当前场景下指定领域的文档的文档集合;
对所述文档集合中的各文档进行拆分得到相应的句子,对拆分所得的句子进行分词处理,确定当前分词处理所得的各词语中存在于所述术语种子集合中的词语为待标注词语,对所述待标注词语分别进行词性标注和序列标注,并将标注完成的待标注词语作为术语形成所述训练数据集。
优选的,将当前分词处理所得的各词语均输入至所述术语抽取模型之后,还包括:
确定停用词及特定词长的词语均为待删除词语,并删除所述术语抽取模型输出的词语中存在的待删除词语。
优选的,删除所述术语抽取模型输出的词语中存在的待删除词语之后,还包括:
将所述术语抽取模型输出的、删除所述待删除词语后所得的词语输出至人工审核终端,并删除所述术语抽取模型输出的、删除所述待删除词语后所得的词语中,所述人工审核终端反馈的未通过审核的词语。
优选的,删除所述人工审核终端反馈的未通过审核的词语之后,还包括:
将所述术语抽取模型输出的、删除所述待删除词语及所述人工审核终端反馈的未通过审核的词语后所得的词语,作为术语加入至所述术语种子集合。
优选的,获取包含全部场景下指定领域的术语的术语种子集合,包括:
采用网络爬虫的方式获取包含全部场景下指定领域的术语的术语种子集合。
优选的,所述预设模型为利用BERT、BiLSTM及CRF进行联合建模所得的模型。
一种术语抽取装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆农村商业银行股份有限公司,未经重庆农村商业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494808.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种壳体喷漆装置
- 下一篇:一种智能测控一体化小型闸门





