[发明专利]一种基于倒排索引与Seq2Seq模型的法律法规推荐方法及系统在审
| 申请号: | 202011140053.5 | 申请日: | 2020-10-22 |
| 公开(公告)号: | CN112287066A | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 李石君;唐培根;余伟;杨济海;余放;杨俊成;李宇轩 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335;G06N3/08;G06Q50/18 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 索引 seq2seq 模型 法律法规 推荐 方法 系统 | ||
1.一种基于倒排索引与Seq2Seq模型的法律法规推荐方法,其特征在于,包括:
S1:构建相关法律法规及案例文档的全文倒排索引;
S2:构建Seq2Seq神经网络模型,并对Seq2Seq神经网络模型进行训练,其中,Seq2Seq神经网络模型包括编码器和解码器,编码器用于根据检索词或违规行为经分词后的序列得到网络节点的状态,解码器用于根据编码器的输出生成检索词或违规行为名称对应的关键词序列,检索词或违规行为名称对应的关键词序列为针对法律法规及案例文档全文生成的倒排索引词典中的词序列;
S3:利用训练好的Seq2Seq神经网络模型进行法律法规推荐。
2.如权利要求1所述的法律法规推荐方法,其特征在于,步骤S1包括:
S1.1:基于Python读取法律法规及案例文档全文,以法条或案例为基本单位对其中的文字信息,利用正则表达式进行中文分词操作;
S1.2:对中文分词操作产生的词条结果进行归一化,形成词项词典;
S1.3:根据词项词典对所有文档按照其中出现的词项建立倒排索引。
3.如权利要求1所述的法律法规推荐方法,其特征在于,S2包括:
S2.1:构建中文常用词汇的one-hot编码;
S2.2:构建基于词汇的one-hot编码的编码器,其中,编码器的输入是检索词或违规行为经分词后的序列,
Si=(xi1,xi2,...,xiM)T,i∈1,2,3...N
其中,Si表示第i条记录的数据,xij表示其中的第j个词,M是Si的长度,N为数据条数;
编码器的输出ci:
ci=hiM,i∈1,2,3...N
为序列全部输入后网络节点hiM的状态,其中:
hi1=xi1
hi,(k+1)=hik|xi,(k+1)
hik为第i条记录的第k个神经元的隐藏状态,即每个神经元的状态等于其前一个神经元的隐藏状态与当前输入按位做逻辑或运算的结果;
S2.3:构建基于词汇的one-hot编码的解码器,其中,解码器的输入为编码器的输出ci,输出为检索词或违规行为名称对应的关键词序列,即针对法律法规及案例文档全文生成的倒排索引词典中的词序列,计算公式如下:
h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)
y′t=σ(Vh′t+c)
其中,h′t为神经元的第t个隐藏状态,h′t-1为神经元的第t-1个隐藏状态,y′t-1为神经元的第t-1个输出,y′t为神经元的第t个输出,σ为激活函数sigmoid函数,c为编码器的输出;U,W,V均为神经网络中隐藏层到输出层的权重向量,θ为每个神经元的阈值向量,U,W,V与θ均为待定参数,其结果通过对模型训练后得出;
S2.4:采用教师强化训练方式,将一定比例的上一个神经元的输出y′替换为正确的值作为输入的方式对模型进行训练,具体包括:运用经典BP算法更新RNN网络中的参数,即隐藏层到输出层的权重值与输出层神经元的阈值,
其中,BP算法得出更新规则如下:
输出层更新规则:
其中,为中间变量,作用是把形如对应等号后边的式子记作g,没有实际含义,η是学习率,η∈(0,1),控制算法的每一轮迭代中的更新步长,Uij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量U的权重,Vij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量V的权重,Wij表示隐藏层第i个神经元与输出层第j个神经元之间关于变量W的权重,θj表示输出层第j个神经元的阈值,所有被Δ修饰的变量如ΔV均表示对该变量的修改值,被^修饰的变量与均表示神经网络给出的对该变量的预测值,其中可由与计算得到,Et为y′t的均方误差,E′t为h′t的均方误差,角标i和j表示某一维的分量,为的第j个分量,表示的第j个分量,βj表示y′t=σ(Vh′t+c)中σ函数的输入,β′j表示h′t=σ(Uc+Wh′t-1+Vy′t-1-θ)中σ函数的输入,为的第j个分量,h′ti表示h′t的第i个分量,h′(t-1)i表示h′(t-1)的第i个分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011140053.5/1.html,转载请声明来源钻瓜专利网。





