[发明专利]一种企业虚假宣传风险识别方法、设备和存储介质在审
申请号: | 202010214386.1 | 申请日: | 2020-03-24 |
公开(公告)号: | CN113505221A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 贺敏;张东雷;杜慧;柳力多;董琳;彭鑫;王秀文;罗引;王磊;赵菲菲;曹家;张西娜;郭富民 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06Q30/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 张丽颖 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 虚假 宣传 风险 识别 方法 设备 存储 介质 | ||
1.一种企业虚假宣传风险识别方法,其特征在于,包括:
从互联网中,获取目标企业对应的多个企业舆情文本;
在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本;
按照预设的风险特征的种类,在每个所述疑似风险文本中提取对应种类的风险特征,形成每个所述疑似风险文本对应的风险特征向量;
将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使所述风险识别模型对每个所述疑似风险文本的虚假宣传风险进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;
根据确定出的所有风险文本的信息,确定所述目标企业对应的虚假宣传风险强度值;如果所述虚假宣传风险强度值大于预设的风险阈值,则确定所述目标企业存在虚假宣传风险。
2.根据权利要求1所述的方法,其特征在于,在所述提取包括预设的风险关键词的企业舆情文本之前,还包括:
从互联网中抽取多个企业虚假宣传文本和多个金融领域文本;
分别对每个所述企业虚假宣传文本和每个所述金融领域文本进行预处理;
利用预设的文档主题生成LDA模型,在预处理后的所述多个企业虚假宣传文本中,提取多个虚假宣传主题关键词,并将所述多个虚假宣传主题关键词设置为初始风险关键词;
利用预设的Word2Vec模型,在预处理后的每个所述金融领域文本中提取上下文信息,并根据所述上下文信息生成多个词汇语义向量;
针对每个所述词汇语义向量,如果存在至少一个所述初始风险关键词的语义向量与所述词汇语义向量的向量相似度大于预设的向量相似度阈值,则将所述词汇语义向量对应的词汇设置为扩展风险关键词;
将设置的每个所述初始风险关键词以及设置的每个所述扩展风险关键词设置为风险关键词。
3.根据权利要求1或者2所述的方法,其特征在于,在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本,包括:
针对每个所述企业舆情文本,对所述企业舆情文本进行分句处理,得到所述企业舆情文本对应的多个分句;
将每个所述分句与预设的多个风险关键词分别进行相似度计算;
如果所述企业舆情文本中至少存在一个所述分句与所述多个风险关键词中的其中一个风险关键词的相似度大于预设的关键词相似度阈值,则将所述企业舆情文本确定为疑似风险文本。
4.根据权利要求1所述的方法,其特征在于,在所述将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型之前,还包括:
步骤1,获取多个样本;其中,根据所述多个样本划分训练数据集、验证数据集和测试数据集;
步骤2,利用预设的向量空间模型,分别在每个所述样本中提取预设种类的风险特征,形成每个所述样本对应的风险特征向量;
步骤3,利用所述训练数据集中的每个所述样本对应的风险特征向量,训练所述风险识别模型中的参数;
步骤4,利用所述验证数据集中的每个所述样本对应的风险特征向量,验证所述风险识别模型是否收敛,如果所述风险识别模型收敛,则执行步骤5,反之,则跳转到步骤3;
步骤5,利用所述测试数据集中的每个所述样本对应的风险特征向量,确定所述风险识别模型的识别效果指标;如果所述识别效果指标大于预设的效果阈值,则结束对所述风险识别模型的训练,反之,则跳转到步骤3。
5.根据权利要求4所述的方法,其特征在于,在所述分别在每个所述样本中提取预设种类的风险特征之前,还包括:
获取所述训练数据集中的多个样本;
利用预设的特征评估函数,分别计算在所述训练数据集的多个样本中出现的每个词汇作为风险特征的评估值;
按照评估值从大到小的顺序,顺次获取前N个词汇,N≥1;
根据所述前N个词语以及预设的向量空间模型,构造风险特征的种类。
6.根据权利要求4所述的方法,其特征在于,所述风险识别模型为支持向量机SVM模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司,未经国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214386.1/1.html,转载请声明来源钻瓜专利网。