[发明专利]一种法律文书案由分类器的自动构建方法有效
申请号: | 201710281403.1 | 申请日: | 2017-04-26 |
公开(公告)号: | CN107122451B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 金佩;张德政;贾麒;谢永红;齐宇馨;栗辉 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/216;G06F40/30 |
代理公司: | 11237 北京市广友专利事务所有限责任公司 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律文书 案由 分类 自动 构建 方法 | ||
本发明提供一种法律文书案由分类器的自动构建方法,分类效率高、准确率高。所述方法包括:获取多类案由的法律文书,确定每类案由的测试语料;对每类测试语料去停用词和分词;根据分词结果,确定每类案由的基本关键词;根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。本发明涉及知识工程技术领域。
技术领域
本发明涉及知识工程技术领域,特别是指一种法律文书案由分类器的自动构建方法。
背景技术
近几年,我国最高人民法院为贯彻落实审判公开原则,设立了中国裁判文书网,规定除涉及国家秘密、个人隐私的、未成年人违法犯罪的、以调解方式结案的和其他不宜在互联网公布的裁判文书外,其余一律在网络上公布。这一政策为面向法律文书的自然语言处理技术带来了大量的研究资源。
在法律信息公开化的大时代背景下,在已有的海量法律文书中,让计算机获得学习能力和较准确的领域知识,有效利用这些海量的文本资源克服文本自然语言理解过程中的复杂性问题,实现文本分析,具有重要的理论价值和实际意义。
现有技术中,法律文书的案由提取,多为人工标记,效率低下;或是利用正则表达式进行匹配,准确率低。
发明内容
本发明要解决的技术问题是提供一种法律文书案由分类器的自动构建方法,以解决现有技术所存在的案由提取效率低下、准确率低的问题。
为解决上述技术问题,本发明实施例提供一种法律文书案由分类器的自动构建方法,包括:
获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料;
对每类测试语料去停用词和分词;
根据分词结果,确定每类案由的基本关键词;
根据分词结果,对每类测试语料进行词向量训练,扩充关键词,根据扩充的关键词和确定的基本关键词,确定每类案由的扩充关键词列表;
输入待分类法律文书,对输入的所述待分类法律文书去停用词和分词、并进行词向量训练,根据所述待分类法律文书的词向量训练结果,计算所述待分类法律文书与每类扩充关键词列表的语义相似度总和,取语义相似度总和最大值对应的案由为所述待分类法律文书对应的案由。
进一步地,所述法律文书包括:判决书和裁定书;
所述获取多类案由的法律文书,构建案由基础语料库,根据构建的所述案由基础语料库,确定每类案由的测试语料包括:
获取多类案由的法律文书,根据获取的所述多类案由的法律文书,构建案由基础语料库;
针对第i类案由,从构建的所述案由基础语料库中选取相应的判决书和裁定书进行合并,得到第i类案由的测试语料。
进一步地,在对每类测试语料去停用词和分词之前,所述方法还包括:
对每类测试语料进行结构划分,去掉文书头部、文书尾部以及当事人信息。
进一步地,所述对每类测试语料去停用词和分词包括:
根据预先自定义的去停用词词典和分词词典,利用Ansj分词器对去掉文书头部、文书尾部以及当事人信息的每类测试语料去停用词和分词;
对分词后得到的结果进行数据过滤。
进一步地,所述对分词后得到的结果进行数据过滤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710281403.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网络图片舆情监测方法
- 下一篇:时序化的学生认知诊断方法