[发明专利]基于主题模型的裁判文书相似度分析方法在审
申请号: | 201710376341.2 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107291688A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 周业茂;葛季栋;王悦;李传艺;李忠金;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题模型的裁判文书相似度分析方法。该方法采用机器学习中的LDA(Latent Dirichlet Allocation)主题模型,针对裁判文书,提出一种基于语义的、半自动化的、通用的相似度分析方法。本方法主要包括选取语料、建立相似度标注、文本预处理、输入选取、参数设置、迭代训练、生成模型和应用模型等步骤。该方法在一般相似度分析方法的基础上,充分考虑裁判文书内容上专业词汇丰富、语义复杂的特点,利用裁判文书半结构化的特性,从而提升了裁判文书相似度分析的准确性和适用性。 | ||
搜索关键词: | 基于 主题 模型 裁判 文书 相似 分析 方法 | ||
【主权项】:
基于主题模型的裁判文书相似度分析方法,其特征是针对裁判文书及其特点,使用基于主题模型的文本挖掘方法来进行文本相似度分析,其步骤如下:(1)在裁判文书集中,以某种属性(如案由、案件类型等)作为筛选条件抽取目标文书子集作为目标语料;(2)将目标语料分为训练语料和测试语料,并对测试语料进行相似度标注;(3)对作为训练语料的文书文本进行预处理操作,包括文书分段、文书筛选、中文分词、分词前后的词语获取和过滤操作;(4)选择目标语料的高可信部分作为输入内容;(5)设置各类参数,包括设置停用词、LDA主题模型训练参数、TF‑IDF输入和评估标准;(6)使用训练语料,应用LDA主题模型进行模型训练;(7)使用测试语料评估本次训练模型(指和测试语料相似度标注的符合程度);(8)调整参数,迭代执行步骤(6),直到针对所有要求参数完成遍历;(9)根据不同参数下的准确度,选择合适的参数,生成裁判文书相似度分析的训练模型;(10)应用步骤(9)生成的训练模型,做裁判文书相似度分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710376341.2/,转载请声明来源钻瓜专利网。