[发明专利]一种面向涉税法律文本的命名实体识别依赖增强方法在审

专利信息
申请号: 202211627706.1 申请日: 2022-12-16
公开(公告)号: CN116050413A 公开(公告)日: 2023-05-02
发明(设计)人: 郑庆华;武乐飞;董博;王凯;师斌;赵锐 申请(专利权)人: 西安交通大学
主分类号: G06F40/295 分类号: G06F40/295;G06Q40/10
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 闵岳峰
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 税法 文本 命名 实体 识别 依赖 增强 方法
【权利要求书】:

1.一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,包括:

首先,执行跨度枚举生成与实体检测,将税务命名实体识别视为跨度分类任务,通过滑动窗口在输入文本上采样,枚举产生大量跨度,并通过特征拼接方法生成每个跨度的深度表示;其次,进行高重叠跨度对比关系挖掘,引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系,增强模型对高度重叠的不同类型实体的区分度;再次,进行跨度间交互依赖关系挖掘,采用了一种尺度变换机制实现跨度交互,从候选跨度的几何信息挖掘交互依赖特征并嵌入原生跨度表示中,增强原生的跨度表示;最后,基于实体检测损失、实体分类损失和对比学习损失,构造一个联合损失函数,对模型进行端到端联合训练。

2.根据权利要求1所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,该方法具体包括以下实现步骤:

1)跨度枚举生成与实体检测

该方法面对的是涉税法律文本,首先需要进行文本表示,将自然语言描述的涉税法律文本转换为低维稠密实值向量;然后在文本上执行滑动窗口枚举,获取每一个跨度,作为实体候选,并将每一个实体候选转化为向量表示;获取实体候选之后,进行实体检测,判断一个候选跨度是否作为一个实体提及,实体提及即可作为实体的文本片段,但尚不知道其类型,实体类型的识别在后续步骤中进行;

2)高重叠跨度对比关系挖掘

对于高度重叠的跨度,引入跨度级监督对比学习目标;在实体检测标签的指导下,利用对比学习损失寻找同类样本之间的共性,拉进这些同类样本的语义距离,并使得这些样本与不同类的样本之间的语义距离越来越远,从而提高对高度重叠但不同类实体的识别能力;

3)跨度间交互依赖关系挖掘

挖掘跨度间交互依赖关系,并用这种交互依赖关系增强原生跨度表示;具体来说,将跨度的离散几何特征进行缩放变换,将其转换为相对位移和宽度比,利用尺度变换机制将这种变换嵌入到高维空间,通过自注意力机制与原生跨度表示融合,达到增强原生跨度表示的目的;

4)端到端联合训练

基于前述步骤获取的前向传播结果,通过联合损失,训练税务命名实体识别多分类器,实现税务命名实体的识别。

3.根据权利要求2所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤1)中,跨度枚举生成与实体检测具体包括以下步骤:

Step1.联合嵌入文本表示

文本表示是指对涉税法律文本进行向量化的操作,将自然语言形态的文本转化为低维稠密实值向量,才能输入模型中执行运算;

Step2.候选跨度生成

首先,根据预定义的长度L,枚举文本中长度小于或等于L的所有跨度;所有候选跨度形成一个集合:sset={s1,s2,...,sm},其中si=(start,end)表示第i个候选跨度;其次,通过计算候选跨度和真实实体之间的交并比IoU,交并比满足预定义阈值的跨度被视为训练样本;IoU用于衡量跨度之间的重叠程度,定义为其中A和B是两个跨度;如果真实实体和多个跨度之间的IoU都满足预定义的阈值,则选择这些跨度中IoU最大的跨度作为训练样本;对于这样的训练样本,为它分配和相关联的真实实体相同的标签并计算它们之间的边界偏移量其他跨度被丢弃,不参与训练;

Step3.实体检测

首先是对跨度进行表示,将跨度转换为分布式表示,对于跨度样本si=(start,end),其中start和end指的是跨度起止字符的索引,拼接边界字符表示与跨度内部字符的最大池化表征,以获得跨度表示[S1,S2,...,Sm];然后,基于一个多层感知机MLP进行跨度检测:

Innerpool=MaxPooling(hstart,…,hend)

其中表示拼接操作,MLPdet表示执行跨度检测的MLP分类器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211627706.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top