[发明专利]文本逻辑条件抽取AI模型构建方法、抽取方法及系统在审
申请号: | 202210080919.0 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114611489A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 邹伟东;蔡子哲 | 申请(专利权)人: | 企知道网络技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518051 广东省深圳市南山区西丽*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 逻辑 条件 抽取 ai 模型 构建 方法 系统 | ||
本发明涉及文本逻辑条件抽取AI模型构建方法、抽取方法及系统,模型构建方法包括:信息标注,基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;文本预处理,构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;模型训练,基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。将ner识别和逻辑条件抽取融合进一个模型,在抽取关键序列片段的同时也获取了片段之间的逻辑关系,无需人工去维护大量的规则,可以覆盖到各式各样的文本结构,提高了逻辑抽取的准确性,能够更好地适用于复杂文本的逻辑条件抽取,且整个抽取流程相对简单。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种文本逻辑条件抽取AI模型构建方法、抽取方法及系统。
背景技术
某些文本文件中包含大量的有效信息,文本信息抽取是nlp领域一种常见的技术,目前主流的抽取方法是依靠深度学习做序列标注,将文件中关键信息标注出来,对于序列片段的标注即ner已经相对成熟,而对于片段之间逻辑条件的抽取,更多的是依靠语义规则、依存句法分析去实现。这种方法对于简单的政策文本逻辑关系的抽取没有问题,但是对于复杂政策文本的逻辑关系就难以覆盖,且需要维护大量的规则,其次,整个抽取流程相对复杂,需要先做ner识别,再在ner的基础上做逻辑判断,是一种非端到端的方法。
发明内容
本发明目的一是提供一种文本逻辑条件抽取AI模型构建方法,具有基于该构建方法构建的AI模型,便于实现端到端的逻辑条件抽取,且能够更好地适用于复杂文本,整个抽取流程相对简单的特点。
根据本申请提供的一种文本逻辑条件抽取AI模型构建方法,包括,
信息标注,基于要训练的文本,对每一个训练文本进行包括序列片段的标注和序列片段之间的逻辑关系的标注;
文本预处理,构建特征,生成模型训练需要的序列片段特征和逻辑关系矩阵特征;
模型训练,基于预处理后的文本进行训练,进行序列片段的逻辑条件抽取,得到逻辑条件抽取的AI模型。
可选地,所述序列片段特征采用BIO标注格式。
可选地,进行序列片段的逻辑条件抽取包括,对每一个序列片段,取片段中的一个token,判断两个token之间的关系,从而得到两个序列片段之间的逻辑关系。
可选地,对每一个序列片段,取片段中的第一个token或者最后一个token,对应地,判断两个第一个token或者两个最后一个token之间的关系,从而得到两个序列片段之间的逻辑关系。
可选地,所述判断两个token之间的关系的具体方法包括,通过计算两个token zi和zj之间关系为的rk时的得分得到,计算得分的具体公式通过公式(1)实现:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (1)
其中,(r)表示关系抽取;f(*)表示激活函数,如relu、tanh等;为关系集合,d为bert模块的隐藏大小,b为逻辑编码层尺寸,l为层的宽度。
可选地,将通过公式(1)计算得到的得分经过sigmoid层把分值处理到[0,1]之间,得到两个token之间的关系概率:
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk)) (2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于企知道网络技术有限公司,未经企知道网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210080919.0/2.html,转载请声明来源钻瓜专利网。