[发明专利]一种面向网格社情研判的双重语义相似度判别方法有效
| 申请号: | 201911144452.6 | 申请日: | 2019-11-20 |
| 公开(公告)号: | CN111723297B | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 钱华;姜永华;钱建华;王巧荣;房查;张宏斌 | 申请(专利权)人: | 中共南通市委政法委员会;江苏飞搏软件股份有限公司 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周新亚 |
| 地址: | 226000 江苏省南通市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 网格 研判 双重 语义 相似 判别 方法 | ||
1.一种面向网格社情研判的双重语义相似度判别方法,其特征在于,所述方法包括以下步骤:
步骤1)获取训练语料库;
步骤2)输入训练语料库,利用BERT模型提取训练语料库中语料对的特征向量a和特征向量b;
步骤3)通过抽象语义和具体语义相结合的相似度计算模型对特征向量a和特征向量b进行初步相似度计算并生成中间判别结果;
步骤4)将中间判别结果进行线性组合;
步骤5)通过线性判别模型cX1+dX2对中间判别结果进行二次计算;
步骤6)利用二次计算结果,通过Sigmoid函数对线性判别模型进行参数调优,并生成最终的相似度判别模型;
步骤7)利用BERT模型提取从多源网页上新采集的待判别的文本大数据的特征向量a和特征向量b;
步骤8)对输入的文本特征向量a和文本特征向量b执行训练好的相似度判别模型cX1+dX2;
步骤9)将相似度判别结果存入到HBASE中;
所述步骤1)具体如下:
步骤1-1基于预设的业务关键词,从微博、重大新闻网站、重点论坛多源网页中采集文本大数据,形成初始舆情语料库;
步骤1-2输入初始舆情语料库,利用BERT模型提取初始舆情语料库中语料对的特征向量a和特征向量b;
步骤1-3通过抽象语义和具体语义相结合的相似度计算模型对特征向量a和特征向量b进行相似度计算;
所述步骤1-3中相似度计算模型分别对输入的特征向量a和特征向量b进行欧式距离计算和余弦夹角计算;
步骤1-4将相似度计算结果与人工设定的阈值进行比较,将舆情语料库中具体语义和抽象语义相似度计算结果明显不在阈值范围内的语料过滤掉;
所述步骤1-4中,阈值的设定依赖于对初始舆情语料库中部分语料进行相似度计算的结果;
步骤1-5对过滤后的语料对进行人工相似度标注;
所述步骤1-5人工相似度标注后的语料文本形成了训练语料库,
所述步骤3中相似度计算模型分别对输入的特征向量a和特征向量b进行欧式距离计算和余弦夹角计算,通过分别计算向量夹角余弦值和向量欧式距离的归一化值得到相似度值,并作为中间判别结果;
所述步骤4将中间判别结果进行线性组合,具体如下:
所述步骤4中间判别结果为欧式距离计算结果X1和余弦夹角计算结果X2的线性组合,更进一步的计算结果表示为布尔值,其中0为相似,1为不相似,
所述步骤5中,cX1+dX2中的c和d值由Sigmoid函数训练最终确定,
所述步骤6中利用二次计算结果,通过Sigmoid函数对线性判别模型进行参数调优,并生成最终的相似度判别模型。
2.根据权利要求1所述的面向网格社情研判的双重语义相似度判别方法,其特征在于,所述步骤8)中相似度判别模型c和d的值已通过Sigmoid函数确定,其中c值为0.9,d值为0.1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中共南通市委政法委员会;江苏飞搏软件股份有限公司,未经中共南通市委政法委员会;江苏飞搏软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911144452.6/1.html,转载请声明来源钻瓜专利网。





