[发明专利]一种面向网格社情研判的双重语义相似度判别方法有效
| 申请号: | 201911144452.6 | 申请日: | 2019-11-20 |
| 公开(公告)号: | CN111723297B | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 钱华;姜永华;钱建华;王巧荣;房查;张宏斌 | 申请(专利权)人: | 中共南通市委政法委员会;江苏飞搏软件股份有限公司 |
| 主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周新亚 |
| 地址: | 226000 江苏省南通市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 网格 研判 双重 语义 相似 判别 方法 | ||
本发明涉及一种面向网格社情研判的双重语义相似度判别方法,所述方法包括以下步骤:步骤1)获取训练语料库;步骤2)输入训练语料库,步骤3)通过抽象语义和具体语义相结合的相似度计算模型对特征向量a和特征向量b进行初步相似度计算并生成中间判别结果;步骤4)将中间判别结果进行线性组合;步骤5)通过线性判别模型cX1+dX2对中间判别结果进行二次计算;步骤6)利用二次计算结果,通过Sigmoid函数对线性判别模型进行参数调优,步骤7)利用BERT模型提取从多源网页上新采集的待判别的文本大数据的特征向量a和特征向量b;步骤8)对输入的文本特征向量a和文本特征向量b执行训练好的相似度判别模型cX1+dX2;步骤9)将相似度判别结果存入到HBASE中。
技术领域
本发明涉及一种相似度判别方法,具体涉及面向网格社情研判的双重语义相似度判别方法,属于大数据舆情分析技术领域。
背景技术
舆情分析现已成为政法委网格化社会治理工作中进行网格社情研判的重要手段,但是舆情分析中经常会涉及到来源于网页的文本数据的标注和相似度分析,之前因为受限于文本特征提取技术,以致相似度判别结果一直不太理想,现在随着特征提取技术的突破性发展,相似度判别方法也一直不断被优化。
现有相似度判别技术中,通常会先对语料库进行人工标注,形成训练样本;然后,基于训练样本,采用向量余弦夹角或者向量欧式距离计算相似度,进行相似度判别模型训练;最后,利用训练好的相似度判别模型对新的文本进行相似度判别。
上述过程可以看出,面对舆情大数据,人工标注需要很大成本,同时单一的语义相似度计算模型,往往也不能获得准确的相似度判别结果,因此,迫切的需要一种新的方案解决上述技术问题。
发明内容
本发明正是针对现有技术中存在的问题,提供一种面向网格社情研判的双重语义相似度判别方法,该方案采用具体语义和抽象语义的双重分析,解决了现有技术中单一语义分析对于舆情数据适用性不强的难题。
为了实现上述目的,本发明的技术方案如下,一种面向网格社情研判的双重语义相似度判别方法,其特征在于,所述方法包括以下步骤:
步骤1)获取训练语料库;
步骤2)输入训练语料库,利用BERT模型提取训练语料库中语料对的特征向量
a和特征向量b;
步骤3)通过抽象语义和具体语义相结合的相似度计算模型对特征向量a和特征向量b进行初步相似度计算并生成中间判别结果;
步骤4)将中间判别结果进行线性组合;
步骤5)通过线性判别模型cX1+dX2对中间判别结果进行二次计算;
步骤6)利用二次计算结果,通过Sigmoid函数对线性判别模型进行参数调优,并生成最终的相似度判别模型;
步骤7)利用BERT模型提取从多源网页上新采集的待判别的文本大数据的特征向量a和特征向量b;
步骤8)对输入的文本特征向量a和文本特征向量b执行训练好的相似度判别模型
cX1+dX2;
步骤9)将相似度判别结果存入到HBASE中。
作为本发明的一种改进,所述步骤1)具体如下:
步骤1-1基于预设的业务关键词,从微博、重大新闻网站、重点论坛等多源网页中采集文本大数据,形成初始舆情语料库;
步骤1-2输入初始舆情语料库,利用BERT模型提取初始舆情语料库中语料对的特征向量a和特征向量b;
步骤1-3通过抽象语义和具体语义相结合的相似度计算模型对特征向量a和特征向量b进行相似度计算;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中共南通市委政法委员会;江苏飞搏软件股份有限公司,未经中共南通市委政法委员会;江苏飞搏软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911144452.6/2.html,转载请声明来源钻瓜专利网。





