[发明专利]基于区间判别的半监督专业术语抽取方法、介质及设备在审
| 申请号: | 202210145790.7 | 申请日: | 2022-02-17 |
| 公开(公告)号: | CN114528835A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 宗畅;陈泽群 | 申请(专利权)人: | 杭州量知数据科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/268;G06F40/30;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
| 地址: | 310000 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 区间 别的 监督 专业术语 抽取 方法 介质 设备 | ||
1.一种基于区间判别的半监督专业术语抽取方法,其特征在于,包括:
S1、获取已标注句子集合,并生成其中每个句子的每个词元的词性标签;
S2、对所述已标注句子集合中带有词性标签的每个句子分别构建正样本和负样本,从而将所述已标注句子集合转换为第一训练数据集;其中,每个句子中已标注的专业术语所处的所有位置区间均为正样本,而句子中随机生成的非专业术语所处的所有位置区间均为负样本,且负样本中不存在与正样本完全重合的位置区间;
S3、利用所述第一训练数据集通过优化损失函数对术语抽取模型进行训练,使训练好的术语抽取模型能够从输入句子中识别出专业术语所处的位置区间;
所述术语抽取模型通过学习得到词性特征矩阵和长度特征矩阵,其中词性特征矩阵每一行的行向量分别对应于一种词性标签,长度特征矩阵每一行的行向量分别对应于一种位置区间长度;在所述术语抽取模型中,输入句子先通过预训练语言模型得到其中每个词元的语义特征表示和整个输入句子的特征表示,然后进一步计算输入句子中每个位置区间对应的语义特征、词性特征和长度特征并将三者进行拼接得到每个位置区间对应的最终特征表示,所述语义特征由位置区间内所有词元的语义特征表示的最大池化结果和整个输入句子的特征表示拼接而成,所述词性特征由所述词性特征矩阵中位置区间的起始词元和末尾词元各自的词性标签所对应的行向量拼接而成,所述长度特征为所述长度特征矩阵中位置区间的长度对应的行向量;最后,由多层感知机针对每一个位置区间基于各自对应的最终特征表示进行二分类判别,得到每个位置区间为专业术语所处区间的概率分布;
S4、针对未标注句子集合中的每个未标注句子,利用训练好的术语抽取模型预测未标注句子中专业术语所处的位置区间,并得到未标注句子中每个位置区间为专业术语所处区间的概率分布,再将得到的概率分布与标准概率分布进行相似度计算,剔除未标注句子中相似度不满足条件的位置区间,未标注句子剩余中保留的位置区间作为专业术语所处区间并用伪标签进行标记,从而将未标注句子集合转换为第二训练数据集;
S5、结合第一训练数据集和第二训练数据集重新对术语抽取模型进行训练,得到最终的术语抽取模型,用于对目标句子进行专业术语抽取。
2.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述S1中,每个句子的每个词元的词性标签通过词性标注工具生成。
3.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述S1中,已标注句子集合中所有句子生成的词性标签均赋予各自的唯一编码,形成词性标签与唯一编码之间的映射表,且映射表中的唯一编码值从起始值1开始以1为步长连续编码;所述词性特征矩阵中,第k行的行向量对应于映射表中唯一编码值为k的词性标签。
4.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述的预训练语言模型为在与所述输入句子的语言种类相同的数据集上训练的Bert模型。
5.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述多层感知机包含两层,第一层的维度为所述最终特征表示的长度的1/2,第二层的维度为2,每层网络通过Relu激活函数激活。
6.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述S3中,所述术语抽取模型训练所采用的损失函数为交叉熵损失与L2正则化项的加权和。
7.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述S4中,所述相似度通过KL散度进行计算。
8.如权利要求1所述的基于区间判别的半监督专业术语抽取方法,其特征在于,所述S5中,对为标注句子或目标句子进行专业术语抽取时,先从句子中提取所有在专业术语长度范围内的可选位置区间,然后利用最终的术语抽取模型对每一个可选位置区间是否术语专业术语所处的位置区间进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州量知数据科技有限公司,未经杭州量知数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210145790.7/1.html,转载请声明来源钻瓜专利网。





