[发明专利]一种法律文本存储方法、装置、可读存储介质及终端设备有效

专利信息
申请号: 201910826805.4 申请日: 2019-09-03
公开(公告)号: CN110765230B 公开(公告)日: 2022-08-09
发明(设计)人: 周剀;周萌 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F40/289
代理公司: 深圳中一联合知识产权代理有限公司 44414 代理人: 刘永康
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 法律 文本 存储 方法 装置 可读 介质 终端设备
【权利要求书】:

1.一种法律文本存储方法,其特征在于,包括:

接收法律文本存储指令,提取所述法律文本存储指令中的目标地址,并获取所述目标地址中的法律文本;

对所述法律文本进行分词处理,得到组成所述法律文本的词语集合;

根据下式分别计算所述词语集合中的各个词语的词条密度:

其中,w为所述词语集合中的各个词语的序号,1≤w≤WN,WN为所述词语集合中的词语数目,WdNumw为所述词语集合中的第w个词语在所述法律文本中出现的次数,LineNum为所述法律文本的总行数,WdDensityw为所述词语集合中的第w个词语的词条密度;

将所述法律文本划分为FN个文本段落,并分别统计所述词语集合中的各个词语在各个文本段落中的出现情况,FN为大于1的整数;

根据下式分别计算所述词语集合中的各个词语的均匀度:

其中,f为所述法律文本的各个文本段落的序号,1≤f≤FN,Flagw,f为所述词语集合中的第w个词语在第f个文本段落中的出现情况的标志位,且WdEquw为所述词语集合中的第w个词语的均匀度;

从所述词语集合中选取词条密度大于预设的第一阈值且均匀度大于预设的第二阈值的各个词语组成核心词子集;

分别获取与各个预设的存储分区对应的各个特征词集合,并在预设的第一词语向量数据库中分别查询所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量;

根据所述核心词子集中的各个词语的词语向量,以及各个特征词集合中的各个词语的词语向量,分别计算所述核心词子集与各个特征词集合之间的向量距离;

将所述法律文本存储入优选存储分区中,所述优选存储分区为与所述核心词子集之间的向量距离最小的特征词集合所对应的存储分区。

2.根据权利要求1所述的法律文本存储方法,其特征在于,所述第一词语向量数据库的设置过程包括:

对预设的法律文本库中的各条法律文本进行分词处理,得到组成所述法律文本库的各个词语;

确定目标词语的各个关联词语,并分别计算所述目标词语与各个关联词语之间的第一关联度,所述目标词语为组成所述法律文本库的任意一个词语;

在预设的第二词语向量数据库中分别查询所述目标词语的词语向量,以及各个关联词语的词语向量;

根据所述目标词语与各个关联词语之间的第一关联度,以及各个关联词语的词语向量,对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量;

将所述目标词语的更新词语向量添加入所述第一词语向量数据库中。

3.根据权利要求2所述的法律文本存储方法,其特征在于,所述对所述目标词语的词语向量进行更新计算,得到所述目标词语的更新词语向量包括:

根据下式分别计算所述目标词语与各个关联词语之间的第二关联度:

其中,c为所述目标词语的各个关联词语的序号,1≤c≤CN,CN为所述目标词语的关联词语的总数,d为词语向量的维度序号,1≤d≤DN,DN为词语向量的维度总数,TgtElmd为所述目标词语的词语向量在第d个维度上的取值,CntElmc,d为所述目标词语的第c个关联词语的词语向量在第d个维度上的取值,SdConnectc为所述目标词语与第c个关联词语之间的第二关联度;

根据下式分别计算所述目标词语与各个关联词语之间的关联度误差:

ErrElmc=SdConnectc—FtConnectc

其中,FtConnectc为所述目标词语与第c个关联词语之间的第一关联度,ErrElmc为所述目标词语与第c个关联词语之间的关联度误差;

根据下式对所述目标词语的词语向量进行更新计算:

其中,λ为预设的更新系数,NwTgtElmd为所述目标词语的更新词语向量在第d个维度上的取值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910826805.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top