[发明专利]基于热点词的司法领域热点事件发现方法有效
| 申请号: | 202010096023.2 | 申请日: | 2020-02-17 |
| 公开(公告)号: | CN111324801B | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 余正涛;梁昊远;毛存礼;郭军军;黄于欣;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/332;G06K9/62 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 代转嫚 |
| 地址: | 650093 云南省昆明*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 热点 司法 领域 事件 发现 方法 | ||
1.基于热点词的司法领域热点事件发现方法,其特征在于:
所述方法的具体步骤如下:
Step1、利用爬虫爬取司法舆情新闻并对数据进行预处理,并使用开源工具分词并提取中文舆情新闻中的要素得到要素集合,并对要素进行词频统计;
Step2、如果数据库中并没有热点事件,则把Step1中词频大于等于阈值的要素定义为热点词,并通过相似度计算系统计算各个热点词所对应舆情新闻之间的相似度,根据返回结果决定舆情新闻是否合并;
Step3、如果数据库中已有热点事件,则对Step1中词频大于等于阈值的要素定义为热点词,归入热点词集合;将词频小于阈值的要素与原有热点事件下的热点词进行对比,若该要素在原热点事件下的热点词集合中出现,则也将该要素定义为热点词,并归入热点词集合,否则丢弃该要素;
Step4、将Step3中得到的热点词集合下的热点词所对应的舆情新闻与原有热点事件下的舆情新闻通过相似度计算系统进行相似度计算,根据计算结果决定该舆情新闻是属于原有热点事件或属于新的热点事件。
2.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述Step1的具体步骤如下:
利用爬虫从新浪微博、新闻网站爬取司法舆情新闻,在经过预处理之后得到新闻数据;
使用开源工具HanLP对得到的司法舆情数据分词并抽取舆情要素,得到要素集合;
对舆情要素集合进行词频统计。
3.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述Step2的具体步骤如下:
如果数据库中没有热点事件,则将词频大于等于阈值的要素定义为热点词,并建立各热点词与其来源的舆情新闻之间的对应关系;
通过相似度计算系统计算各个热点词所对应的舆情新闻之间的相似度,将相似度计算系统返回的结果为“True”的舆情新闻以及其对应的热点词合并为热点事件。
4.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述步骤Step4的具体步骤如下:
将Step3中得到的热点词集合下的热点词与其来源的舆情新闻建立对应关系,得到热点词——舆情新闻集合;
将热点词——舆情新闻集合下的所有舆情新闻与原有热点事件下的舆情新闻通过相似度计算系统做相似度计算;
若最终返回结果为“True”,则将该舆情新闻及其对应的热点词与原有热点事件下的舆情新闻以及热点词进行合并;
若最终返回结果为“False”,则使用该舆情新闻及其对应的热点词新增为一个新的热点事件。
5.根据权利要求1所述的基于热点词的司法领域热点事件发现方法,其特征在于:所述相似度计算系统包含以下子系统:
基于舆情新闻正文要素统计的文本相似度计算系统;
统计每条舆情文本的舆情要素,利用两条舆情文本的要素词共现计算两条舆情文本之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
基于BERT的舆情标题相似度计算系统;
利用BERT预训练的词向量表征每条舆情标题,通过计算两条标题文本之间的欧氏距离计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
基于tf-idf的舆情标题相似度计算系统;
利用tf-idf表征每条舆情标题,通过计算两条标题文本之间的余弦相似度计算两条标题之间的相似度,若相似度大于等于阈值,则返回“True”,否则返回“False”;
最终根据三个子系统的结果来判定,如果三个结果中有2个及以上的“True”,则认为这两条舆情文本为相似文本,属于同一热点事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010096023.2/1.html,转载请声明来源钻瓜专利网。





