[发明专利]一种基于enhance matrix的法律案件候选段落的选取方法及装置有效
申请号: | 202110543628.6 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113361261B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 胡峰;董磊;邓维斌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06N3/08;G06Q50/18 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 enhance matrix 法律 案件 候选 段落 选取 方法 装置 | ||
本发明涉及自然语言处理、人工智能等领域,特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置,方法包括对带有推理性质的法律阅读理解数据集进行处理,获取具有候选段落标注的法律数据集;将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;针对每个样本构建EM矩阵,并利用EM矩阵对相似度矩阵R进行增量处理;将处理后的特征输入二分类任务分类器进行训练,通过训练好的模型获取概率最高的n个段落作为候选段落;本发明提高段落选择的准确率,最大程度的减少向下游任务传递的噪音信息。
技术领域
本发明涉及自然语言处理、人工智能等领域,特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置。
背景技术
随着社会的发展和大数据时代的到来,法院每年都要处理大量的诉讼案件,人民法院需要根据当事人的诉讼请求、答辩意见以及证据交换的情况,归纳争议焦点,这个过程需要法官根据法律规定和审判经验,结合案件具体情况进行综合归纳,这个过程十分耗费人力,随着人工智能的发展,已将有很多自认语言处理领域的技术应用在法律案件争议焦点归纳上面,并取得了不错的成绩;在获得争议焦点之后,还要考虑对“为什么得到这个争议焦点”提供证据,为争议焦点的获取提供可解释性;由于存在案件类型多,争议焦点数目多,答案寻找存在多跳情况等问题,基于规则的方式已经无法当前的需求,分案件、争议焦点的情况下使用多跳机器阅读理解可以更加出色的完成这个任务。
多跳机器阅读理解是当前人工智能的一个重要研究方向,在自动问答系统、聊天机器人中具有广泛的应用。阅读理解答案的正误大多能根据背景材料中的少量几个段落来推断,本文将这些关键段落称为候选段落,候选段落抽取有助于对答案直接相关的段落进行准确定位,目前已有工作专门针对散文阅读理解开展基于抽象词语关联的答案获取方法的研究,针对散文选择题开展选项和背景材料的一致性蕴含问题,文献采用了较为简单的词语匹配抽取算法,正确率不高;另外,多数阅读理解系统从问题出发将候选段落抽取同答案生成融合为一个问题来提出联合模型,但该方法缺乏可解释性,且最终答题的精确度并未得到显著提高,本发明的主要工作体现在候选段落抽取这一部分,减少向下游任务传递噪声数据。
答案候选句抽取算法大体可以分为3类:基于信息检索的方法、基于概率主题模型的方法和基于深度学习的词嵌入方法,但是这3类方法依然存在以下问题:
1)基于信息检索的方法将候选句抽取任务看成一个检索问题,早期语义相似度计算方法主要基于空间向量模型,利用TF-IDF刻画文档语句相似度,是一种无监督的学习方式,这种方法简单地采用词匹配和重叠的方式,难以捕获句子之间微妙的相关信息;
2)基于概率主题模型方法的基本思路是通过每一篇文档的主题分布和每一个主题中词的分布来确定句子的相关度,一般采用经典的概率主题模型(Latent DirichletAllocation,LDA)或在语义分析方法(Latent Semantic Analysis,LSA)等,将高维的文档降维到潜在语义低维空间来计算语义相关度,这类方法主要从篇章级别对文档进行建模,而对于微阅读模式的句子级建模表现较差。
发明内容
本发明针对现有的候选段落获取技术在处理具有多跳特点的法律领域相关文档时,无法正确选择与问题相关的候选段落、学习到段落之间的推理关系等缺点,提出一种基于enhance matrix的法律案件候选段落的选取方法及装置,所述方法包括以下步骤:
对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;
将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110543628.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风电风机储能增效利用装置
- 下一篇:一种市政工程测绘系统及其使用方法