[发明专利]一种基于机器学习算法的裁判文书标注方法及装置有效
申请号: | 201810178639.7 | 申请日: | 2018-03-05 |
公开(公告)号: | CN108334500B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 金耀辉;姜华;李慧;王永坤 | 申请(专利权)人: | 上海思贤信息技术股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F16/35;G06N20/00 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 201207 上海市浦东新区自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于机器学习算法的裁判文书标注方法及装置。该方法包括:采集待标注的裁判文书的文本集合;对所述文本集合中的文本进行结构分割;建立语义标签库;基于语义标签库对所述待标注的裁判文书进行人工标注;选取部分人工标注的裁判文书作为标准数据集合交由机器学习,训练和优化初步标注模型;选取剩余部分人工标注的裁判文书样本作为校验数据集合,用于完善所述语义标签库,并对所述初步标注模型进行迭代和优化,得到成熟的裁判文书标注模型;将目标待标注的裁判文书进行结构分割后输入所述成熟的裁判文书标注模型,得到标注结果。通过本发明,解决了相关技术中裁判文书法律要素提取不完整和案件信息提取准确度低的问题。 | ||
搜索关键词: | 一种 基于 机器 学习 算法 裁判 文书 标注 方法 装置 | ||
【主权项】:
1.一种基于机器学习算法的裁判文书标注方法,其特征在于,包括以下步骤:步骤S101:采集待标注的裁判文书的文本集合;步骤S102:基于预设正则集合,将所述文本集合中的各个文本进行结构分割;步骤S103:将步骤S102处理过的所述文本集合分为标准数据集合和校验文书集合;步骤S104:建立语义标签库,所述语义标签库包括通用标签、案由标签、同义词标签;步骤S105:基于所述语义标签库,人工标注所述标准数据集合中的各个文书,形成标准裁判文书标注样式;步骤S106:将步骤S105处理过的所述标准数据集合分为训练集和测试集;步骤S107:采用机器学习算法,将所述训练集交由机器学习,训练机器自动标注模型;步骤S108:将所述测试集交由步骤S107输出的所述机器自动标注模型进行自动标注,根据标注结果的覆盖度和置信度不断调整所述机器学习算法,形成初步标注模型;步骤S109:使用所述初步标注模型对步骤103输出的所述校验文书集合进行自动标注;步骤S110:对步骤S108输出的自动标注结果进行随机抽样,作为校验样本;步骤S111:对所述校验样本进行人工校验,补充和完善所述语义标签库;同时调整算法,重复步骤S108至步骤S111,对所述初步标注模型进行迭代优化,最终得到成熟的裁判文书标注模型;步骤S112:将目标待标注的裁判文书重复步骤S102后输入所述成熟的裁判文书标注模型,按照所述语义标签库的标签映射和所述成熟的裁判文书标注模型匹配,得到所述目标待标注的裁判文书的标注结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海思贤信息技术股份有限公司,未经上海思贤信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810178639.7/,转载请声明来源钻瓜专利网。