[发明专利]基于主题模型的裁判文书相似度分析方法在审
申请号: | 201710376341.2 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107291688A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 周业茂;葛季栋;王悦;李传艺;李忠金;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 模型 裁判 文书 相似 分析 方法 | ||
技术领域
本发明是一种文本相似度分类方法,针对法院内部的裁判文书,属于机器学习、文本挖 掘技术领域。
背景技术
中国裁判文书网从2013年开始建设,截止2017年5月14日已经累积存储文书超过2900 万篇,逐渐成长为全球最大的裁判文书共享网站。基于这些数据,一系列司法大数据研究、 分析工作也相继开展,在获得斐然成果的同时,还面临着许多问题和挑战。其中一部分问题 集中在针对法院数据挖掘分析能力和相关研究的不足上。
裁判文书,作为法院工作的重要组成部分,记载了人民法院审理的过程和结果。它既是 法院诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。在中 国法院信息化过程中汇聚起来的裁判文书已经成为审判领域宝贵的数据资源,通过针对裁判 文书的大数据挖掘研究工作,可以提出更加智能化的信息技术手段辅助法官办案。例如:从 已有裁判文书库中挖掘相似案例的裁判文书,并为法官提供相似案例推荐;法院可以根据一 个法官经手裁判文书的相似程度来评估其一段时间的工作量;法官、诉讼参与人、法律工作 者等可以输入案情来查看某案件可能涉及的相关法律条文。针对这些应用场景和需求,本专 利提出一种针对裁判文书的文本相似度分析方法。
法院审判工作的各类要求,裁判文书本身所具有的种种特性,以及现有相似度分析方法 的局限和难点,迫切需要研究一种针对裁判文书的特点而量身定制的相似度分析方法。其中, 中国法院裁判文书的半结构化特性为提高文本相似度分析结果提供了可能,并为相似度结果 评估提供了依据。中国法院裁判文书中存在的案由、法律条文等相对固定的分类、标识信息 为我们使用主题模型方法提供了启示。裁判文书的文字内容注重逻辑、注重推理的特性则对 相似度方法的语义理解能力提出了相应的要求。基于以上一些原因,本文中提出了一种采用 LDA(Latent Dirichlet Allocation)主题模型、针对裁判文书、基于语义的、半自动化的、 通用的相似度分析方法。
文本相似度分析方法作为自然语言处理中的一个重要研究方向,用于衡量目标对象之间 的相似程度,已经被应用在信息抽取、文本分类、文本聚类、主题探索、主题跟踪等诸多领 域。相似度方法一般存在两个关键点:一个是特征的表示,另一个则是针对特征间的相似度 关系计算。现有的文本相似度分析方法,从单纯的基于字符的分析方法,到基于语料和知识 系统挖掘文本语义的分析方法,已经经历了长期的发展。而中文相似度方法则在此基础上, 针对中文语言的特性进行了进一步的探索。由于相似度问题本身的多样性,在针对不同的目 标对象(词语、短文本、长文本),或处于不同的应用场景时,往往需要采用不同的相似度方 法以达到更好的分析效果。
主题模型系列方法,尤其是其中的LSA(Latent Semantic Analysis)、LDA相关方法, 是现在针对文本相似度研究的一个重要方向。简而言之,主题模型基于如下假设:每一个单 词都一定概率属于某几个主题,而每一篇文本都表达若干个主题。当把主题模型应用在相似 度分析方法中,针对训练完成的主题模型,可以推断出一篇文本的主题归属,从而根据主题 情况进一步计算获得不同文本间的相似程度。从另一个角度来说,主题模型相当于将以词汇 为基础的高维向量映射到语义空间,使其降维。主题模型由Latent Semantic Indexing(LSI) 发展而来,Probabilistic Latent Semantic Analysis(pLSA)是第一个有影响力的主题概 率模型。Blei在pLSA的基础上引入了Dirichlet分布,提出了LDA,进一步泛化了主题模型 方法。在之后的应用研究中,为了针对不同的问题以及提升LDA的使用效率(并行化),其它 一系列与LDA相关的改进方法被相继发表。
LDA全称Latent Dirichlet Allocation,由Blei在2003年提出,是一种非监督的主题 模型方法,可以用于对大规模文档集或语料库进行语义理解和隐藏主题识别。LDA方法相对 于原有的主题模型方法,引入了Dirichlet分布,加入了先验概率假设。这使得模型更容易 应用在训练语料集以外的文本,降低模型过拟合的可能性,对于数据量较小的语料具有更好 的表现力。目前,LDA方法已经在文本信息抽取、文本分类、文本自动摘要、图像处理等领 域有了广泛的尝试和应用。
主题模型方法建立在如下公式假设下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710376341.2/2.html,转载请声明来源钻瓜专利网。