[发明专利]蒙古语裁决文书信息自动标注及抽取方法和装置在审

专利信息
申请号: 202110532905.3 申请日: 2021-05-17
公开(公告)号: CN113435164A 公开(公告)日: 2021-09-24
发明(设计)人: 赵小兵;张亮 申请(专利权)人: 中央民族大学
主分类号: G06F40/117 分类号: G06F40/117;G06Q50/18
代理公司: 北京久诚知识产权代理事务所(特殊普通合伙) 11542 代理人: 翟丽红
地址: 100081 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 蒙古语 裁决 文书 信息 自动 标注 抽取 方法 装置
【权利要求书】:

1.一种蒙古语裁决文书信息自动标注及抽取方法,其特征在于,所述方法包括:

S1、获取蒙古语判决文书原始数据;

S2、对所述蒙古语判决文书原始数据进行预处理;

S3、根据预设的属性标签体系对预处理后的蒙古语判决文书原始数据进行关键要素标注,得到标注文书,所述预设的属性标签体系基于汉语判决文书构建;

S4、采用正则表达式对所述标注文书进行信息抽取,得到关键信息。

2.如权利要求1所述蒙古语裁决文书信息自动标注及抽取方法,其特征在于,所述方法还包括:

S5、将所述关键信息保存预先设置好结构的规则的文本中。

3.如权利要求1~2任一所述蒙古语裁决文书信息自动标注及抽取方法,其特征在于,所述对所述蒙古语判决文书原始数据进行预处理,包括:

S201、将蒙古语判决文书从蒙科立编码转换为国际标准编码;

S202、对变形控制符以及附加成分进行统一转换;

S203、将全角字符转换为半角字符,删除页码以及多余段落符。

4.如权利要求1~2任一所述蒙古语裁决文书信息自动标注及抽取方法,其特征在于,所述预设的属性标签体系的构建过程包括:

为汉语判决文书的外部属性标签设定固定类别性标签,通过固定类别性标签对汉语判决文书的进行标注,对标注后的汉语判决文书按外部标签进行拆分,并从术语、法条知识库中提炼出属性标签体系;对于标签标注的原则,遵循如下规则:

采用机器自动标注;

在机器自动标注的基础之上,采用人工校对的方式;

针对汉语判决文书的非结构化部分,将其转化为结构化文本,转换步骤如下:

a、分析首尾部结构特征,研究基于结构关系的判决文书首尾部属性化表示方法,构建结构化属性标签匹配规则;

b、分析正文中的基本信息和判决结果的内容特征,研究基于规则的判决书的属性化表示方法,结合专业术语库选取关键关键词相关信息来制定规则,构建非结构化文本的属性标签匹配规则。

5.如权利要求1~2任一所述蒙古语裁决文书信息自动标注及抽取方法,其特征在于,采用正则表达式对标注文书进行信息抽取,得到关键信息,包括:

采用正则表达式字符串匹配的方式,对步骤S3中的标注文书进行自动抽取,得到关键信息,形成XML模板文件。

6.如权利要求2所述蒙古语裁决文书信息自动标注及抽取方法,其特征在于,所述将所述关键信息保存预先设置好结构的规则的文本中,包括:

S501、编写Python程序,利用正则匹配算法从XML模板文件中抽取关键信息;

S502、将抽取出的关键信息写入一个txt文本文件中。

7.一种蒙古语裁决文书信息自动标注及抽取装置,其特征在于,所述装置包括:

数据获取模块,用于获取蒙古语判决文书原始数据;

预处理模块,用于对蒙古语判决文书原始数据进行预处理;

标注模块,用于根据预设的属性标签体系对预处理后的蒙古语判决文书原始数据进行关键要素标注,得到标注文书,所述预设的属性标签体系基于汉语判决文书构建;

抽取模块,用于采用正则表达式对标注文书进行信息抽取,得到关键信息。

8.如权利要求1所述蒙古语裁决文书信息自动标注及抽取装置,其特征在于,所述装置还包括:

规则文本模块,用于将所述关键信息保存预先设置好结构的规则的文本中。

9.一种计算机可读存储介质,其特征在于,其存储用于蒙古语裁决文书信息自动标注及抽取的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一所述的蒙古语裁决文书信息自动标注及抽取方法。

10.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~6任一所述的蒙古语裁决文书信息自动标注及抽取方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110532905.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top