[发明专利]文书归属领域的确定方法和装置在审
申请号: | 201610729145.4 | 申请日: | 2016-08-25 |
公开(公告)号: | CN107783989A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 石鹏;贾凯;李学海 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/18 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文书 归属 领域 确定 方法 装置 | ||
技术领域
本发明涉及信息处理领域,具体而言,涉及一种文书归属领域的确定方法和装置。
背景技术
通常将记录行政司法案件的文件记作行政司法文书,行政司法案件涉及的行业、领域非常广泛,现有技术中,可以通过对行政司法文书中特征信息的提取划分行政司法文书的领域。在现有的行政司法文书特征信息提取过程中,需要根据其文书描述,人为的该行政司法文书所涉及的国家行政机构以及具体的行政案由,然后根据这两个纬度信息,简单判断该行政司法文书归属的领域。具体地,可以按照人力穷举的特定关键词库,从司法文书的描述信息中提取特定关键词,并基于提取出的特定关键词简单判断该文书的归属领域信息。
在现有方案中,由于特定关键词库对文书中的词语进行匹配,若文书中出现词A,但是关键词库中没有A,只有A的近似词句,则该词A无法匹配到,例如,文书中出现“知产”,但是关键词库中只有“知识产权”,则无法从关键词库中匹配到“知产”这个词。由于无法提取完全的关键词,会导致判断归属领域的准确度较低,而若存在大量近似词句,则会造成关键词库无限膨胀,降低信息提取效率;另外,由于上述操作都是人工执行,执行速度慢,并且浪费了大量的人力资源。
针对现有技术中基于提取出的文书关键词做简单对比,导致确定文书归属领域的准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文书归属领域的确定方法和装置,以至少解决现有技术中基于提取出的文书关键词做简单对比,导致确定文书归属领域的准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种文书归属领域的确定方法,包括:从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;获取多个文书关键词在每个候选领域中的出现概率;根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。
进一步地,根据出现概率,从多个候选领域中确定出目标文书所属的目标领域包括:利用出现概率,确定目标文书对应于各个候选领域的概率值;根据多个概率值,从多个候选领域中选取目标领域。
进一步地,根据多个概率值,从多个候选领域中选取目标领域包括:从多个概率值中获取最大的概率值;将最大的概率值对应的候选领域,作为目标领域。
进一步地,利用出现概率,确定目标文书对应于各个候选领域的概率值包括:利用如下公式计算目标文书对应于候选领域的概率值,其中,公式为:Pi=Pi1*Pi2*…*Pij,其中,Pi表示目标文书对应于候选领域i的概率值,Pi1表示文书关键词1在候选领域i中的出现概率,Pi2表示文书关键词2在候选领域i中的出现概率,Pij表示文书关词j在候选领域i中的出现概率,i和j为自然数。
进一步地,获取多个文书关键词在每个候选领域中的出现概率包括:在文书关键词存在于预先获取的模型中的情况下,从模型中读取多个文书关键词在每个候选领域中的出现概率;在文书关键词不存在于预先获取的模型中的情况下,计算文书关键词在每个候选领域中的出现概率。
进一步地,在从预先获取的模型中,读取多个关键词在每个候选领域中的出现概率之前,方法还包括:获取属于多个候选领域的多个训练样本;从多个训练样本中提取样本关键词;统计各个样本关键词出现在每个候选领域中的出现概率;将各个样本关键词出现在每个候选领域中的出现概率,保存入模型。
进一步地,计算文书关键词在每个候选领域中的出现概率包括:统计文书关键词在目标文书中出现的次数;以出现的次数作为分子量,将分子量与预先设置的分母量作比,得到文书关键词在每个候选领域中的出现概率。
根据本发明实施例的另一方面,还提供了一种文书归属领域的确定装置,包括:第一提取单元,用于从目标文书中提取文书关键词集合,其中,文书关键词集合中包括具有领域特征的多个文书关键词,领域特征为预先设置的用于表示领域的特征;第一获取单元,用于获取多个文书关键词在每个候选领域中的出现概率;确定单元,用于根据出现概率,从多个候选领域中确定出目标文书所属的目标领域。
进一步地,确定单元包括:确定模块,用于利用出现概率,确定目标文书对应于各个候选领域的概率值;选取模块,用于根据多个概率值,从多个候选领域中选取目标领域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610729145.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光电催化膜的应用
- 下一篇:一种稀土氧化物熔盐电解槽