[发明专利]基于区间判别的半监督专业术语抽取方法、介质及设备在审

申请号：	202210145790.7	申请日：	2022-02-17
公开（公告）号：	CN114528835A	公开（公告）日：	2022-05-24
发明（设计）人：	宗畅;陈泽群	申请（专利权）人：	杭州量知数据科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/268;G06F40/30;G06F16/35;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310000 浙江省杭州市萧山***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于区间别的监督专业术语抽取方法介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于区间判别的半监督专业术语抽取方法、介质及设备，属于自然语言处理领域。本发明提出的基于区间判别的专业术语抽取方法中，针对专业术语的特性构建了包含语义特征、词性特征和长度特征在内的区间特征用于判别专业术语，相比于传统的序列标注方法，能有效的处理术语之间的嵌套问题。同时，本发明针对专业术语抽取任务构建的半监督抽取流程，在针对专业术语的标注困难，数据集构建成本大的问题，具有一定的缓解作用。本发明采用的半监督机制能在少量的训练样本下取得较好的抽取效果，针对专业术语的特征构建方法能使抽取结果更加准确。

技术领域

本发明属于自然语言处理领域，具体涉及一种文本中的专业术语信息抽取方法。

背景技术

在自然语言处理中，面临需要从科技文献中抽取专业术语的问题，即针对科技文献中的标题和摘要部分的文本序列[w₁,w₂,…,w_n]，从中抽取在上下文中形成一个完整且信息丰富的语义单元[w_i,w_i+1,…,w_j]，具有一定的领域特性，且不同的语义单元可能存在嵌套关系。从本质上讲该任务也属于自然语言处理中的实体抽取问题，当前，将短语或实体抽取转换为序列标注任务是一个最常见的做法，其中最常用的是双向LSTM-CRF的结构，通过双向LSTM编码文本中的上下文信息，之后通过CRF算法对特征进行解码完成抽取。但在专业术语的场景下，术语之间可能存在嵌套情况，如“随机存储器”、“存储器”。这种存在嵌套情况的术语标注问题，是传统的序列标注的方法无法解决的，需要对术语抽取模型进行优化改进。此外，构建一个高性能的术语抽取模型往往需要大量的数据集，不同领域的专业术语往往没有公开的标注数据集，而对于术语的标注不仅仅需要人力，还需要标注人员具有一定的知识背景，不同领域的数据就需要不同领域的专家人员参与标注，所以术语抽取数据集构建的人力和时间成本十分巨大，数据标注困难。

综上，现有的通用方法有如下缺陷：

(1)在科技文献中的专业术语往往存在很多的嵌套关系，现有的常用的序列标注方法无法解决且特征构建不具备针对性。

(2)不同领域的专业术语数据集标注困难，标注数据需要标注人员具有一定的专业知识背景。

发明内容

本发明的目的在于解决科技文献中的专业术语抽取问题，并提供一种基于区间判别的半监督专业术语抽取方法。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种基于区间判别的半监督专业术语抽取方法，其包括：

S1、获取已标注句子集合，并生成其中每个句子的每个词元(即token)的词性标签；

S2、对所述已标注句子集合中带有词性标签的每个句子分别构建正样本和负样本，从而将所述已标注句子集合转换为第一训练数据集；其中，每个句子中已标注的专业术语所处的所有位置区间均为正样本，而句子中随机生成的非专业术语所处的所有位置区间均为负样本，且负样本中不存在与正样本完全重合的位置区间；

S3、利用所述第一训练数据集通过优化损失函数对术语抽取模型进行训练，使训练好的术语抽取模型能够从输入句子中识别出专业术语所处的位置区间；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载