[发明专利]司法文书的处理方法、装置、电子设备和存储介质在审
| 申请号: | 202211704216.7 | 申请日: | 2022-12-29 |
| 公开(公告)号: | CN115936932A | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 郭曼;胡泽婷;张天宇;路兴 | 申请(专利权)人: | 北京易华录信息技术股份有限公司 |
| 主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F16/35;G06F16/36;G06F16/25 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 陈刚 |
| 地址: | 100043 北京市石景*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 司法 文书 处理 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种司法文书的处理方法、装置、电子设备和存储介质,所述方法包括:将司法文书的各个段落进行内容标注,得到第一内容主旨和第二内容主旨;对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。本发明提供的技术方案,在一定程度上能够提高司法文书的结构化表示的效率。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种司法文书的处理方法、装置、电子设备和存储介质。
背景技术
司法文书是研究法律文本信息的重要资源,为基于司法文书的类案推荐、裁判结果预测、智能问答等法律人工智能应用研究提供重要的要素指标。但是,司法文书基本以纯文本形式公开,属于典型的非结构化数据,使得从司法文书中准确地识别和抽取信息变得十分困难。所以我们需要使用文本识别方法对司法文书进行结构化表示。现有技术中,针对司法文书的结构化表示主要由司法工作者进行相应的标注,然后由于“案多人少”的矛盾问题突出,手工标注的效率较低,且标注者的个人经验直接影响了司法文书结构化表示的准确性。
发明内容
有鉴于此,本发明实施方式提供了一种司法文书的处理方法、装置、电子设备和存储介质,在一定程度上能够提高司法文书结构化表示的效率。
本发明一方面提供了一种司法文书的处理方法,所述方法包括:将获取的司法文书的各个段落进行内容标注,得到表征所述司法文书有规则段落的第一内容主旨和表征所述司法文书无规则段落的第二内容主旨;对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息;将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息;将第一内容主旨和所述第一内容主旨对应的第一实体信息进行关联,以及将分类体系和所述分类体系对应的第二实体信息进行关联,得到所述司法文书的结构化表示结果。
在一个实施方式中,司法文书的处理方法还包括:将获取的司法文书进行分段处理,并去除所述司法文书中的空行和非法字符,得到目标司法文书;相应的,对所述目标司法文书的各个段落进行内容标注。
在一个实施方式中,对所述第一内容主旨表征的有规则段落进行正则化表示,得到与所述第一内容主旨对应的第一实体信息包括:将针对所述第一内容主旨表征的有规则段落输入基于上下文描述标注的深度学习模型,得到针对所述第一内容主旨表征的有规则段落的正则表达式;基于所述正则表达式提取与所述第一内容主旨对应的第一实体信息。
在一个实施方式中,将所述第二内容主旨表征的无规则段落输入至与所述第二内容主旨对应分类体系的文本分类模型,得到与所述第二内容主旨对应的第二实体信息包括:确定与预设分类体系对应的目标无规则段落;将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型,得到与所述预设分类体系对应的第二实体信息。
在一个实施方式中,将所述目标无规则段落输入至与所述预设分类体系对应的文本分类模型,得到与所述预设分类体系对应的第二实体信息包括:将所述目标无规则段进行分词处理,得到多个目标词语;分别生成针对多个所述目标词语的多个目标词语向量;将所述多个目标词语向量和所述预设分类体系中包括的若干个分类类别进行匹配,得到所述目标无规则段落和若干个分类类别之间的匹配度;将最大匹配度对应的分类类别作为与所述预设分类体系对应的第二实体信息。
在一个实施方式中,所述第二内容主旨包括案情事实信息,其特征在于,司法文书的处理方法还包括:将所述案情事实信息表征的无规则段落输入至命名实体识别模型,对所述无规则段落中的案发地址进行识别,得到第三实体信息;将案发地址和所述第三实体信息进行关联后的结果作为所述司法文书的结构化表示结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易华录信息技术股份有限公司,未经北京易华录信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211704216.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高产量水稻的种植方法
- 下一篇:风控数据检验方法及装置





