[发明专利]语义匹配模型训练方法及系统、检索系统、装置、介质在审
申请号: | 202011277803.3 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112395426A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 翁洋;王竹;李鑫;其他发明人请求不公开姓名 | 申请(专利权)人: | 四川大学;成都数之联科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/338;G06F16/33;G06Q50/18 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 匹配 模型 训练 方法 系统 检索系统 装置 介质 | ||
本发明公开了语义匹配模型训练方法及系统、检索系统、装置、介质,涉及自然语言处理领域,包括:选择包含预设争议焦点的裁判文书作为基础样本;定义单组训练样本为三元组样本Q、Dsupgt;+/supgt;和Dsupgt;‑/supgt;,基于该裁判文书对应的Q、Dsupgt;+/supgt;和Dsupgt;‑/supgt;得到单组训练样本;基于多个单组训练样本生成训练样本;对每个单组训练样本利用语义匹配模型分别计算Q与Dsupgt;+/supgt;和Dsupgt;‑/supgt;的相关性得分,基于相关性得分和损失函数训练语义匹配模型;本发明避免了争议焦点多导致的搜索前争议焦点选择困难的问题;解决了返回裁判文书排序质量低的问题,利用深度语义匹配模型将争议焦点与案情事实结合起来,使得在召回后裁判文书的再排序结果精确度大大提高。
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种语义匹配模型训练方法及系统、检索 系统、装置、介质。
背景技术
近年来,随着人工智能的发展,在司法领域下的智能审判支撑平台的建设正在逐步推进, 其中自然语言处理是最重要的技术组件之一。在司法的背景下,为了实现“同案同判”的目 标,提出了类案精准推送这一应用,在输入一个案情事实的情况下,按案情事实部分的相似度顺序从裁判文书库内返回相关裁判文书来辅助法官的判决。
目前,这一工作已经从多个角度取得了进展,其中包括案件争议焦点的提取(在搜索前进 行点选精确搜索范围,点选为争议焦点选择);基于知识图谱的检索(对于案情部分进行实体 与关系的抽取,构建三元组组成知识图谱,并基于知识图谱在ES服务器上进行检索),但现 在的技术基础仍有些问题需要解决。首先,现有的争议焦点提取存在争议焦点种类多,但是 大多数案件集中在少数几类中,点选难度大;其次由于目前的实体和关系抽取类别少,在基 于知识图谱的检索的实际应用中,检索返回的裁判文书从知识图谱角度来看是几乎是完全一 致的,但对应的案情部分并非完全一致。
发明内容
为实现解决争议焦点多且对应裁判文书量不平衡,现存检索系统检索结果排序需要进一 步优化的问题,由于裁判文书中的争议焦点相当于案情事实部分的高度抽象浓缩,本发明提 出利用结合争议焦点和案情事实的深度学习语义匹配模型进行知识图谱召回后的再排序。
为实现上述目的,本发明提供了语义匹配模型训练方法,所述方法包括:
基于争议焦点分类裁判文书,选择包含预设争议焦点的若干个裁判文书作为基础样本;
定义单组训练样本为三元组样本Q、D+和D-,包括查询Q、与查询Q相关的D+和与查询Q 不相关的D-;针对基础样本中的每个裁判文书,采用该裁判文书中的案情事实部分作为Q, 并从该基础样本中获得符合条件的D+和D-,基于该裁判文书对应的Q、D+和D-得到单组训练样本;基于基础样本中的所有裁判文书得到的多个单组训练样本生成训练样本;
针对训练样本,对每个单组训练样本利用语义匹配模型分别计算Q与D+和D-的相关性得 分,利用相关性得分和损失函数训练语义匹配模型。
其中,本方法利用裁判文书中的争议焦点相当于案情事实部分的高度抽象浓缩,定义单 组训练样本为三元组样本Q、D+和D-,针对基础样本中的每个裁判文书,采用该裁判文书中 的案情事实部分作为Q,并从该基础样本中获得符合条件的D+和D-,对每个单组训练样本利 用语义匹配模型分别计算Q与D+和D-的相关性得分,基于得分和损失函数训练语义匹配模型, 基于上述方法训练得到的语义匹配模型能够解决争议焦点多且对应裁判文书量不平衡,现存 检索系统检索结果排序需要进一步优化的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都数之联科技有限公司,未经四川大学;成都数之联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011277803.3/2.html,转载请声明来源钻瓜专利网。