[发明专利]一种面向涉税法律文本的命名实体识别依赖增强方法在审
申请号: | 202211627706.1 | 申请日: | 2022-12-16 |
公开(公告)号: | CN116050413A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 郑庆华;武乐飞;董博;王凯;师斌;赵锐 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06Q40/10 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 闵岳峰 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 税法 文本 命名 实体 识别 依赖 增强 方法 | ||
本发明公开了一种面向涉税法律文本的命名实体识别依赖增强方法,包括:将税务命名实体识别视为跨度分类任务,通过滑动窗口从输入文本中枚举大量跨度,并通过特征拼接方法生成每个跨度的深度表示;引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系;采用尺度变换机制实现跨度交互,将每一个候选跨度的几何信息嵌入原生跨度表示中,以编码跨度之间的交互依赖关系。本发明将税务命名实体识别转换为跨度分类任务,并充分挖掘了实体间交互依赖关系,实现强推断关系,并引入对比学习提高了高重叠实体间不同类型的区分度,可以更加准确、合理地针对税务法律文本中的命名实体进行识别,为税收优惠等下游任务奠定基础。
技术领域
本发明属于自然语言处理与税控技术领域,特别涉及一种面向涉税法律文本的命名实体识别依赖增强方法。
背景技术
各类的税收优惠对于享受主体的资格条件、减免方式、优惠额度等都有较多细节的规定,导致企业对政策了解度低,享受不充分等问题。因此,通过智能化技术帮助企业识别能享受到哪些政策、能享受到多少税额的优惠具有非常重大的意义,可以更好地帮助纳税人享受税收优惠,助力企业提高经营效益,因此有必要开展税收优惠匹配计算研究。
在税收优惠匹配计算研究中,享受主体的判定涉及税法命名实体识别,即涉税法律文本中具有特定信息的专有名词,例如纳税人、征税对象、税种和税收执行类型等。涉税法律命名实体识别是税收优惠匹配计算的关键技术,如果无法准确识别涉税法律文本中命名实体,将导致税收优惠匹配计算的结果错误,导致不应享受而享,应享而未享等问题。因此,如何利用自然语言处理技术对税法文本中表示特定信息的命名实体进行识别,已成为一个亟待解决的问题。
目前尚未有相关研究对面向税法文本的命名实体识别提出相应的解决方案。公开技术旨在建立面向涉税法律文本的命名实体识别方法,代表性的工作为:
文献1:基于深度神经网络的中文命名实体识别方法及系统(202210417839.X)
文献2:一种医疗领域中文命名实体识别方法(202210268640.5)
文献3:基于级联模型和数据增强的法律命名实体识别方法及系统(202110828255.7)
文献1设计了一种基于深度神经网络的中文命名实体识别方法及系统,通过双向长短词记忆模型BiLSTM网络获取和基于自注意力机制对其进行依赖关系的计算,得到基于依赖关系的特征向量,并通过条件随机场进行标签预测。
文献2设计了一种医疗领域中文命名实体识别方法,采用BBCPR模型和MCBERT编码器,通过BiLSTM层对融合嵌入进行编码,得到输入序列的最终隐含表示,最后基于CRF层对BiLSTM层的输出进行解码,得到标签序列并输出。
文献3设计了一种基于级联模型和数据增强的法律命名实体识别方法,通过数据增强并构建了一个级联模型,使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征,并采用两个CRF条件随机场解码,得到实体序列和属性序列并拼接,得到最后的标签表示,进行判断并输出法律文书中的法律实体。
上述传统方法虽然可以解决特定领域的命名实体识别问题,但是很难直接拓展至涉税法律文本中的命名实体识别上,原因在于税务领域文本中的命名实体的具有嵌套的特点,且相互之间存在强推断关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211627706.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于地质构造勘察取样器
- 下一篇:一种海水循环泵填料密封装置