[发明专利]基于差异性案件要素的案件舆情时间线生成方法有效
| 申请号: | 202110436179.5 | 申请日: | 2021-04-22 |
| 公开(公告)号: | CN113158079B | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 余正涛;赵瑶;黄于欣;郭军军;线岩团;相艳 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/35;G06F40/30;G06N20/00 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 差异性 案件 要素 舆情 时间 生成 方法 | ||
1.基于差异性案件要素的案件舆情时间线生成方法,其特征在于,包括:
Step1、抽取差异性要素和获取案件时间,并将它们与微博文本一起作为BERT模型的输入,生成文本的高维向量表征;
Step2、利用自编码器将文本的高维向量表征经过线性变换生成低维特征向量,通过BOW重构文本,提高上下文一致性;
Step3、基于低维特征向量和K-Means聚类的方法,并通过自编码过程中的重构损失和聚类损失不断微调聚类中心,生成最终舆情案件时间线;
所述Step3包括如下:
经过线性降维之后得到压缩数据,选择k-means算法作为聚类算法,且引入软聚类算法,将文本以一定的概率分配到各个类别中;
首先随机初始化聚类中心,然后重复以下两个步骤:
步骤1:计算一个向量文本放入每个簇的概率;
步骤2:计算辅助的概率分布,作为编码网络的目标;网络权重和聚类中心会迭代更新,直到满足条件为止;
针对步骤1,函数衡量向量的嵌入表示zi放入uj簇的概率符合自由度为1的学生t-分布;
其中,qij表示使用学生t-分布作为函数衡量向量的嵌入表示zi和类j的中心uj之间的相似性得分;
针对步骤2,使用一个辅助目标分布概率pij,与相似性得分qij相比,概率pij的目的是提高聚类纯度,定义如公式(2)所示,其定义依赖于qij的分布;
其中,是软群频率;
每次迭代需要更新的参数为:
公式(4)是优化自编码中的编码端参数,公式(5)是优化软聚类中心;其中,α表示学生t-分布的自由度,值为1;
聚类通过最小化软聚类标签分布Q和辅助目标分布P之间的KL散度来得到最优的聚类结果,如公式(5)所示:
公式(5)也是软聚类过程中的损失函数,最小化目标函数Lossclu是自训练的一种形式;
在软聚类过程中,仅仅使用聚类损失会使嵌入特征空间被篡改,因此自编码器的重构损失也被加入到损失函数中,与聚类损失同时被优化,最终得到的文本损失为Loss,如公式(6)所示,通过最终损失不断微调BERT,优化整个聚类过程:
Loss=Lossrec+Lossclu (6)
其中,Lossrec为重构损失,Lossclu为聚类损失。
2.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1之前,先收集并处理涉案舆情时间线数据作为训练语料和测试语料;
其中,具体的,借助互联网爬虫自动获取新浪微博中的涉案舆情文本信息作为数据来源,构建两种不同讨论热度的涉案舆情时间线数据集,并以9:1的比例划分训练集、测试集。
3.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1中,抽取差异性要素包括:
首先在涉案舆情时间线数据集中,根据数据集的微博文本数目,通过词频-逆文档频率TF-IDF算法分别抽取描述案件的10个案件要素,记作kdoc;然后在每条微博文本中,使用同样的方法选择词频最高的5个案件关键词,则第i条微博文本的案件关键词记作最后选取每条微博文本中非案件要素的案件关键词作为差异性要素ki,如公式(7)所示:
其中,ki表示第i条微博文本的差异性要素,-表示案件关键词与案件要素做差值运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436179.5/1.html,转载请声明来源钻瓜专利网。





