[发明专利]一种企业虚假宣传风险识别方法、设备和存储介质在审
申请号: | 202010214386.1 | 申请日: | 2020-03-24 |
公开(公告)号: | CN113505221A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 贺敏;张东雷;杜慧;柳力多;董琳;彭鑫;王秀文;罗引;王磊;赵菲菲;曹家;张西娜;郭富民 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06Q30/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 张丽颖 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 虚假 宣传 风险 识别 方法 设备 存储 介质 | ||
本发明公开了一种企业虚假宣传风险识别方法、设备和存储介质。该方法包括:在目标企业对应的多个企业舆情文本中,提取疑似风险文本;在每个疑似风险文本中提取对应种类的风险特征,形成每个疑似风险文本对应的风险特征向量;将多个疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使风险识别模型对每个疑似风险文本进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定目标企业对应的虚假宣传风险强度值;如果虚假宣传风险强度值大于预设的风险阈值,则确定目标企业存在虚假宣传风险。本发明可以避免人工匹配规则的局限性,提升了虚假宣传风险识别的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种企业虚假宣传风险识别方法、设备和存储介质。
背景技术
随着经济和社会的发展,各类融资平台的数量呈现爆发式增长,互联网与金融的融合催生了一系列新的融资模式,如P2P众筹等。与此同时,相应的监管措施还未健全,导致了融资市场混乱和违法违规现象频发,不仅限制了该行业的健康发展,还为经济建设带来了巨大的风险和隐患。比如非法集资就给社会带来了极大的危害。由于互联网不分地域、快速传播、涉众面广等特性,给防范和处置非法集资工作带来了巨大的挑战。涉嫌非法集资的企业在集资前期一般会通过互联网发表虚假言论来标榜企业实力,诱导民众投资企业发布的产品。因此,识别企业虚假宣传对及早判别非法集资风险具有重大的意义,可以有效防范、打击和处置非法集资等违法行为。
目前,主要通过基于人工规则匹配的方式来识别企业是否存在虚假宣传风险。该识别方式具体包括:通过匹配企业关键词的方式,从海量互联网数据中,获取企业相关的文本数据;在获取的文本数据中,查询是否存在虚假宣传风险关键词;如果文本数据中包含虚假宣传风险关键词,则判定该企业存在虚假宣传风险,反之,则判定该企业不存在虚假宣传风险。但是,由于人工设置匹配规则的局限性导致识别准确率较低,无法满足实际应用,而且人工设置的匹配规则也无法满足动态变化的金融环境,适应性较差。
发明内容
本发明实施例的主要目的在于提供一种企业虚假宣传风险识别方法、设备和存储介质,以解决基于人工规则匹配的方式来识别企业是否存在虚假宣传风险,会由于人工设置匹配规则的局限性导致识别准确率较低的问题。
针对上述技术问题,本发明实施例是通过以下技术方案来解决的:
本发明实施例提供了一种企业虚假宣传风险识别方法,包括:从互联网中,获取目标企业对应的多个企业舆情文本;在所述目标企业对应的多个企业舆情文本中,提取包括预设的风险关键词的企业舆情文本作为疑似风险文本;按照预设的风险特征的种类,在每个所述疑似风险文本中提取对应种类的风险特征,形成每个所述疑似风险文本对应的风险特征向量;将多个所述疑似风险文本分别对应的风险特征向量顺次输入预先训练的风险识别模型,使所述风险识别模型对每个所述疑似风险文本的虚假宣传风险进行识别,并将识别为存在虚假宣传风险的疑似风险文本确定为风险文本;根据确定出的所有风险文本的信息,确定所述目标企业对应的虚假宣传风险强度值;如果所述虚假宣传风险强度值大于预设的风险阈值,则确定所述目标企业存在虚假宣传风险。
其中,在所述提取包括预设的风险关键词的企业舆情文本之前,还包括:从互联网中抽取多个企业虚假宣传文本和多个金融领域文本;分别对每个所述企业虚假宣传文本和每个所述金融领域文本进行预处理;利用预设的文档主题生成LDA模型,在预处理后的所述多个企业虚假宣传文本中,提取多个虚假宣传主题关键词,并将所述多个虚假宣传主题关键词设置为初始风险关键词;利用预设的Word2Vec模型,在预处理后的每个所述金融领域文本中提取上下文信息,并根据所述上下文信息生成多个词汇语义向量;针对每个所述词汇语义向量,如果存在至少一个所述初始风险关键词的语义向量与所述词汇语义向量的向量相似度大于预设的向量相似度阈值,则将所述词汇语义向量对应的词汇设置为扩展风险关键词;将设置的每个所述初始风险关键词以及设置的每个所述扩展风险关键词设置为风险关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司,未经国家计算机网络与信息安全管理中心;北京中科闻歌科技股份有限公司;北京中科闻歌智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214386.1/2.html,转载请声明来源钻瓜专利网。