[发明专利]关联文书的确定方法和装置在审
申请号: | 201611117075.3 | 申请日: | 2016-12-07 |
公开(公告)号: | CN108170691A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 石鹏;贾凯;李学海 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/18 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种关联文书的确定方法和装置。其中,该方法包括:获取待关联文书的文书标签;利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。本发明解决了获取关联文书的效率低的技术问题。 1 | ||
搜索关键词: | 关联 特征标签 标签 方法和装置 关联度 过滤 预先获取 预先建立 书库 | ||
获取待关联文书的文书标签;
利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签,其中,所述特征标签为所述文书标签中能够表征所述待关联文书特征的标签;
根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取所述多个候选文书的特征标签;
利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度;
基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书。
2.根据权利要求1所述的确定方法,其特征在于,利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签包括:获取所述文书标签中与所述过滤模型中记录的标签相匹配的目标标签;
读取所述过滤模型中记录的所述目标标签在候选文书中出现的概率;
在所述概率小于预定阈值的情况下,将所述目标标签确定为所述特征标签。
3.根据权利要求1所述的确定方法,其特征在于,根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书包括:确定所述待关联文书的各个特征标签所属的类别;
根据所述类别从所述文书库中,提取所述候选文书,其中,所述候选文书具有所述类别的特征标签。
4.根据权利要求1或3所述的确定方法,其特征在于,利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度包括:获取设置的各个所述类别的权重;
利用如下计算方式确定所述待关联文书和每个所述候选文书的关联度G:
其中,Gi表示候选文书i与所述待关联文书的关联度,n表示所述待关联文书的特征标签的总数,aik表示候选文书i的特征标签k与所述待关联文书的特征标签k的匹配参数,bik表示特征标签k所属类别的权重,n、i和k均为自然数。
若所述候选文书i的特征标签k与所述待关联文书的特征标签k的值相匹配,则匹配参数为第一值;
若所述候选文书i的特征标签k与所述待关联文书的特征标签k的值不匹配,则匹配参数为第二值。
6.根据权利要求1所述的确定方法,其特征在于,在利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤之前,所述方法还包括:获取多个样本文书;
对每个所述样本文书进行分词处理,得到每个所述样本文书的分词结果,并将所述分词结果作为所述样本文书的标签;
统计所有所述样本文书的标签,得到统计结果,其中,所述统计结果至少包括分词得到所有标签、每个所述标签出现在所有所述样本文书中的次数、以及每个所述文书标签在所述样本文书中出现的概率;
保存统计结果,生成所述过滤模型。
7.根据权利要求1所述的确定方法,其特征在于,基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书包括:将与所述待关联文书的关联度超过预定阈值的候选文书确定为所述关联文书;或者,
对候选文书的多个关联度进行排序,将排序在前N位或后N位的关联度对应的候选文书确定为所述关联文书。
8.一种关联文书的确定装置,其特征在于,包括:第一获取单元,用于获取待关联文书的文书标签;
过滤单元,用于利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签,其中,所述特征标签为所述文书标签中能够表征所述待关联文书特征的标签;
处理单元,用于根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取所述多个候选文书的特征标签;
第一确定单元,用于利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度;
第二确定单元,用于基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书。
9.根据权利要求8所述的确定装置,其特征在于,所述过滤单元包括:获取模块,用于获取所述文书标签中与所述过滤模型中记录的标签相匹配的目标标签;
读取模块,用于读取所述过滤模型中记录的所述目标标签在候选文书中出现的概率;
标签确定模块,用于在所述概率小于预定阈值的情况下,将所述目标标签确定为所述特征标签。
10.根据权利要求8所述的确定装置,其特征在于,所述处理单元包括:类别确定模块,用于确定所述待关联文书的各个特征标签所属的类别;
提取模块,用于根据所述类别从所述文书库中,提取所述候选文书,其中,所述候选文书具有所述类别的特征标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611117075.3/,转载请声明来源钻瓜专利网。