[发明专利]文本逻辑条件抽取AI模型构建方法、抽取方法及系统在审
申请号: | 202210080919.0 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114611489A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 邹伟东;蔡子哲 | 申请(专利权)人: | 企知道网络技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518051 广东省深圳市南山区西丽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 逻辑 条件 抽取 ai 模型 构建 方法 系统 | ||
1.一种文本逻辑条件抽取AI模型构建方法,其特征在于,包括,
信息标注(101),基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;
文本预处理(102),构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;
模型训练(103),基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。
2.根据权利要求1所述的方法,其特征在于,所述序列片段特征采用BIO标注格式。
3.根据权利要求1所述的方法,其特征在于,进行序列片段的逻辑条件抽取包括,对每一个序列片段,取片段中的一个token,判断两个token之间的关系,从而得到两个序列片段之间的逻辑关系。
4.根据权利要求3所述的方法,其特征在于,对每一个序列片段,取片段中的第一个token或者最后一个token,对应地,判断两个第一个token或者两个最后一个token之间的关系,从而得到两个序列片段之间的逻辑关系。
5.根据权利要求3或4所述的方法,其特征在于,所述判断两个token之间的关系的具体方法包括,通过计算两个token zi和zj之间关系为的rk时的得分得到,计算得分的具体公式通过公式(1)实现:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (1)
其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;为关系集合,d为bert模块的隐藏大小,b为逻辑编码层尺寸,l为层的宽度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括,将通过公式(1)计算得到的得分经过sigmoid层把分值处理到[0,1]之间,得到两个token之间的关系概率:
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk)) (2)
其中,wi为输入序列片段的第i个字符,σ(*)为sigmoid函数。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括,基于所述关系概率,利用交叉熵损失函数
通过最小化逻辑关系抽取的损失函数,对AI模型参数进行优化;其中,是token wi的向量,是token wi的关系标签;θ是AI模型参数集合。
8.一种基于AI模型的文本逻辑条件抽取方法,其特征在于,包括,
AI模型的构建(100),根据权利要求1到7之一所述的逻辑条件抽取AI模型构建方法进行构建;
逻辑条件的抽取(200),基于构建的所述AI模型,通过序列片段标注结果和逻辑关系矩阵结果,将文本中的逻辑条件抽取出来。
9.一种基于AI模型的文本逻辑条件抽取系统,其特征在于,包括
输入接口,用于输入要进行序列片段逻辑条件抽取的文本内容;
逻辑条件抽取模型,根据权利要求1到7之一的逻辑条件抽取AI模型构建方法构建得到,对输入的文本内容进行序列片段的逻辑条件抽取;
输出接口,输出基于输入的文本内容所抽取到的序列片段的逻辑条件。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至8中任一种方法的计算机程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于企知道网络技术有限公司,未经企知道网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210080919.0/1.html,转载请声明来源钻瓜专利网。