[发明专利]基于热点词的司法领域热点事件发现方法有效
| 申请号: | 202010096023.2 | 申请日: | 2020-02-17 |
| 公开(公告)号: | CN111324801B | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 余正涛;梁昊远;毛存礼;郭军军;黄于欣;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/332;G06K9/62 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 代转嫚 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 热点 司法 领域 事件 发现 方法 | ||
本发明涉及基于热点词的司法领域热点事件发现方法,属自然语言处理领域。本发明先对爬取的司法舆情新闻进行处理,通过HanLP工具分词并抽取舆情新闻中的舆情要素,然后通过对舆情要素进行词频统计得到热点词集合并建立热点词与舆情新闻的对应关系,接下来通过相似度计算系统对舆情新闻进行两两评估以决定归并与否,相似度计算系统包括三个子系统:基于舆情新闻正文要素统计的文本相似度计算系统、基于BERT的舆情标题相似度计算系统以及基于tf‑idf的舆情标题相似度计算系统。在得到以上子系统的结果后,通过分别设置阈值的方式决定两条舆情文本是否属于同一热点事件。最后根据子系统的最终结果决定两条舆情是否为同一热点事件。
技术领域
本发明涉及基于热点词的司法领域热点事件发现方法,属于自然语言处理技术领域。
背景技术
伴随互联网的迅速发展,社交网络逐渐成为获得与分享新闻的重要渠道。大量 司法领域的相关舆情也会在互联网中显现出来,而司法领域的相关舆情聚焦于社会 热点案件问题,因此社会热点极易聚焦在一些敏感事件上,导致社会舆论呈现病毒 式的爆发趋势。因此司法部门如何快速且有效地发现这些热点事件成为了一个至关 重要的问题。
在互联网上,数据的实时性非常强,一些热点案件的相关舆情数量极易在短时 间内呈爆炸式增长,因此,在司法领域舆情的热点事件发现中,需要定期爬取互联 网中的数据且时间间隔不能太长。这也就导致了司法领域数据有以下特点:(1)数 据主题数量难以预估;(2)数据里各主题的舆情分布不均衡;(3)数据中充斥大量 噪声。而正是由于这些特点,传统的主题模型无法得到准确的主题。
综上所有,需要提供一种能够加快热点事件发现速度且提高准确率的司法领域热点事件发现方法。
发明内容
为解决上述问题,本发明提供了基于热点词的司法领域热点事件发现方法。
本发明的技术方案是:基于热点词的司法领域热点事件发现方法,所述方法的 具体步骤如下:
Step1、利用爬虫爬取司法舆情新闻并对数据进行预处理,并使用开源工具分词并提取中文舆情新闻中的要素得到要素集合,并对要素进行词频统计;
Step2、如果数据库中并没有热点事件,则把Step1中词频大于等于阈值的要素 定义为热点词,并通过相似度计算系统计算各个热点词所对应舆情新闻之间的相似 度,根据返回结果决定舆情新闻是否合并;若相似度大于等于阈值则将舆情新闻以 及其对应的热点词合并为热点事件,相似度小于阈值的舆情新闻将被丢弃;
Step3、如果数据库中已有热点事件,则对Step1中词频大于等于阈值的要素定 义为热点词,归入热点词集合;将词频小于阈值的要素与原有热点事件下的热点词 进行对比,若该要素在原热点事件下的热点词集合中出现,则也将该要素定义为热 点词,并归入热点词集合,否则丢弃该要素;
Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算系统进行相似度计算,根据计算结果决定该舆情 新闻是属于原有热点事件或属于新的热点事件;若相似度大于等于阈值则将热点词 以及其对应的舆情新闻归入原热点事件,否则将舆情新闻新增为一个新的热点事件。
进一步地,所述Step1的具体步骤如下:
利用爬虫从新浪微博、新闻网站爬取司法舆情新闻,在经过预处理之后得到新 闻数据;
使用开源工具HanLP对得到的司法舆情数据分词并抽取舆情要素,得到要素集合;
对舆情要素集合进行词频统计。
进一步地,所述Step2的具体步骤如下:
如果数据库中没有热点事件,则将词频大于等于阈值的要素定义为热点词,并建立各热点词与其来源的舆情新闻之间的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010096023.2/2.html,转载请声明来源钻瓜专利网。





