[发明专利]融入领域术语词典的司法舆情敏感信息识别方法有效

专利信息
申请号: 202010984681.5 申请日: 2020-09-18
公开(公告)号: CN112231472B 公开(公告)日: 2022-07-29
发明(设计)人: 余正涛;张泽锋;黄于欣;郭军军;相艳;高盛祥 申请(专利权)人: 昆明理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/242;G06F40/284;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 何娇
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融入 领域 术语 词典 司法 舆情 敏感 信息 识别 方法
【说明书】:

发明涉及融入领域术语词典的司法舆情敏感信息识别方法。本发明首先使用双向循环神经网络和多头注意力机制对舆情文本和领域术语词典分别进行编码,抽取显著特征;其次将领域术语词典作为分类的指导知识,与舆情文本构建相似矩阵,得到融入领域术语词典的文本表征;然后利用多头注意力机制和卷积神经网络进一步提取全局和局部特征,最终实现敏感信息分类。本发明将领域术语词典与司法舆情上下文信息进行融合,技能利用上下文信息弥补传统方法在上下文信息中表征效果不佳,又能利用领域知识增强文本中与司法信息相关的词语的语义特征表示,从而提高司法舆情敏感信息识别的性能。

技术领域

本发明涉及融入领域术语词典的司法舆情敏感信息识别方法,属于自然语言处理技术领域。

背景技术

在社交网络中,用户可以随时随地表达自己的观点,其中针对司法部门审判相关工作有大量误解和片面的言论,它们具有传播迅速、敏感度高、易引发网络舆情等特点。为了更好地辅助司法部门开展工作,从海量的舆情新闻中快速、准确识别涉及司法的敏感信息显得尤为重要。

针对司法领域的敏感信息识别来讲,并不能将其看为一个简单的二分类任务,需要同时考虑是否涉及司法领域以及是否为敏感信息,会出现敏感和不敏感,且同样有一些虽然敏感但不涉及司法的。因此本发明将司法敏感信息识别任务转化为一个四分类任务,需要识别敏感性和领域性。

司法舆情文本具有描述不规范、冗余信息多等问题导致难以对其进行有效的表征,涉及司法领域的敏感信息中包含导致文本敏感的短语、而这些短语又属于司法领域敏感专有词汇,这些词语对于涉法敏感信息的识别起主导作用,但是这些短语在通用领域的敏感术语词典中不会出现,所以直接进行词匹配工作无法有效识别司法领域的敏感信息。为了获得更好的表征,让模型能够学习到司法敏感信息相关的表示,构造领域敏感术语词典,将术语词典作为外部指导融入到深度学习框架中,可以进行有效的特征增强。

发明内容

为解决上述问题,本发明构建领域术语词典,利用领域术语词典指导模型进行领域特征的学习,并针对司法舆情的文本描述特性,提出融入领域术语词典的司法舆情敏感信息识别模型,进行司法舆情敏感信息的分类。

本发明的技术方案是:融入领域术语词典的司法舆情敏感信息识别方法,所述方法包括:

构建融入领域术语词典的司法敏感信息识别模型来进行敏感信息识别;融入领域术语词典的司法敏感信息识别模型包括编码层、领域术语词典融入层、局部特征提取层和分类层;

通过编码层将舆情文本和领域术语词典进行编码和特征关注;

通过领域术语词典融入层将领域术语词典与舆情文本计算相似度并融入文本表征中;

通过局部特征提取层在领域术语词典融入层的基础上提取重要特征提取;

通过分类层将提取的重要特征进行类别概率的预测。

作为本发明发进一步方案,构建融入领域术语词典的司法敏感信息识别模型之前进行司法舆情数据爬取并根据司法舆情敏感信息分类进行数据预处理,具体步骤如下:

Step1.1、爬取舆情文本并经过人工筛选和标注后构成共若干条舆情文本;

Step1.2、构建领域术语词典,其中包括司法领域词汇和敏感词汇,司法领域词汇由裁判文书网和中国法院网构建,其中敏感词汇有两部分构成:(1)、根据司法舆情数据特点手动构建,(2)、筛选公开的中文敏感词汇,词汇由字、词及短语组成;

Step1.3、利用搜狗新闻数据集、司法舆情敏感信息数据集、领域术语词典以及word2vec算法预训练司法敏感的词向量作为司法敏感信息识别模型的司法敏感先验知识。

作为本发明发进一步方案,所述构建融入领域术语词典的司法敏感信息识别模型的具体步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010984681.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top