[发明专利]一种法律数据库构建方法及法律检索服务方法在审
申请号: | 201410242810.8 | 申请日: | 2014-06-03 |
公开(公告)号: | CN104008171A | 公开(公告)日: | 2014-08-27 |
发明(设计)人: | 刘婕;张程;赵晓芳 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/18 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;李科 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法律 数据库 构建 方法 检索 服务 | ||
技术领域
本发明涉及计算机文本信息检索,具体地说,本发明涉及一种法律数据库构建方法及法律检索服务方法。
背景技术
信息检索是指将记录信息的资料按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。利用信息检索技术,人们可以更加容易的从海量的资料中寻找到需要的知识,提高了知识获取的效率。
法律检索系统是将信息检索技术作用于法律法规文本的一种应用,可以帮助各级人大机关、党政机关,法院、检察院、律师事务所等法律从业机构的工作人员,快速找到所需的法律法规信息。同时,法律检索系统也向社会大众提供法律检索服务。
目前的法律检索系统,如全国人大的“中国法律法规检索系统”,北京大学的“北大法宝”等,都是针对法律法规全文及其标题、日期、发布部门、法规分类、效力级别、时效性等元数据组合信息进行检索,返回的检索结果以法律法规全文为基本单位。然而用户往往需要找到案情可能适用的法条,所以在获得检索结果后,用户还需要进一步地自行查找相关法条。
另一方面,用户往往期望找到与案情相关的所有相关法条,目前的法律检索都是对关键字的精确匹配,如果关键字不够准确,检索出的结果就可能存在遗漏,有的相关法条可能不在检索结果范围之内。因此为找到更多的相关法条,用户往往需要尝试使用多种关键字或关键字组合,进行多次、反复检索,才能最终找到所需的多个相关法律条目。因此,现有法律检索的便捷性亟待提高。
因此,当前迫切需要一种能够帮助用户更快速地找到所需的法律法规信息的法律检索服务方案。
发明内容
因此,本发明的任务是克服现有技术的不足,提供一种能够帮助用户更快速地找到所需的法律法规信息的法律检索服务方案。
本发明提供了一种法律数据库构建方法,包括下列步骤:
1)法律数据库接收一个新的法律文本,按条目拆分所接收的法律文本,得到相应的法律条目文档并创建相应的唯一标识;
2)对每个法律条目文档进行分词,对于分词所得的每个词项,在基于内容的倒排索引中建立或更新该词项所对应的唯一一条记录,所述基于内容的倒排索引的每条记录均包括:内容中出现该条记录所对应词项的每个法律条目文档及相应的索引信息;
3)回到步骤1)接收下一个法律文本并进行相应的处理,直至所有法律文本均处理完毕。
其中,所述步骤2)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
其中,所述步骤2)包括下列子步骤:
21)遍历拆分得到的每个法律条目文档,对于当前法律条目文档,对其进行分词;
22)遍历分词得到的所有词项,对每一个词项,计算当前词项出现在所述当前法律条目文档中的词频,在基于内容的倒排索引中查找对应于所述当前词项的记录,如果查找到已存的所述当前词项的记录,在记录中增加所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频,并更新所述当前词项的逆文档频率;如果未查找到已存的所述当前词项的记录,则在所述基于内容的倒排索引的词典中增加所述当前词项,同时增加一条新的记录,所述新的记录包括所述当前词项的逆文档频率,所述当前法律条目文档的标识,以及所述当前词项在所述当前法律条目文档中出现的词频。
本发明还提供了一种基于上述法律数据库的法律检索服务方法,包括下列步骤:
4)获取作用于内容域的检索向量;
5)对于检索向量中的每个关键词,根据基于内容的倒排索引,找到内容中出现该关键词的每个法律条目文档及相应的索引信息;
6)根据相应的索引信息对命中的法律条目文档进行排序。
其中,所述步骤5)中,所述索引信息包括:所对应词项的逆文档频率,以及所对应词项出现在每个法律条目文档的词频;其中,所述逆文档频率是基于法律数据库中的法律条目文档的逆文档频率。
其中,所述步骤6)包括下列子步骤:
61)对于步骤5)中命中的每个法律条目文档,得到维度与所述检索向量一致的法律条目文档向量,所述法律条目文档向量的每个元素对应于一个关键词,每个元素的值根据步骤5)所找到的该关键词的逆文档频率,以及该法律条目文档的内容中出现该关键词的词频得出;
62)将法律条目文档向量和检索向量的相似度作为相应法律条目文档的检索相似度,根据所述检索相似度对各个命中的法律条目文档进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410242810.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于高频桥臂的双向光伏逆变器
- 下一篇:一种T型三电平变流器中点的均压电路