[发明专利]文本聚类图片识别方法、装置和系统有效

专利信息
申请号: 202111037175.6 申请日: 2021-09-06
公开(公告)号: CN113836907B 公开(公告)日: 2023-07-18
发明(设计)人: 陈冠伟 申请(专利权)人: 好心情健康产业集团有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F40/216;G06F16/35
代理公司: 北京和信华成知识产权代理事务所(普通合伙) 11390 代理人: 李莹
地址: 100080 北京市海淀区北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 图片 识别 方法 装置 系统
【说明书】:

发明公开一种文本聚类图片识别方法、装置和系统,通过人工智能算法将处理软件文本进行向量化并聚类,自动将原生相机软件信息和风险处理软件区分开来,精确地找出风险研判的风险软件,实现了疑似风险软件的自动化预警,并且优化了整个系统,大大降低了风险研判的工作量和人工操作风险。

技术领域

本发明涉及人工智能领域,尤其涉及一种文本聚类图片识别方法、装置和系统。

背景技术

随着人工智能技术的发展,文本智能识别和图片智能识别已经广泛应用于多个场景,由于人工智能算法的特点,文本识别相对简单,但对于图片识别来说速度较慢,特别是对于大量图片识别的场景下,有些更需要提高识别图片的准确度,降低图片识别错误率以及对假冒图片信息的识别,光靠提高硬件设备的性能难以满足,实时处理的场景也很难得到很好的用户体验。

发明内容

针对上述缺陷,本发明要解决的技术问题是如何快速准确地识别图片,尤其是对图片真实性进行评估。

针对上述缺陷,本发明的目的在于提供一种文本聚类图片识别方法、系统及电子设备、计算机存储介质和程序产品。

本发明提供一种文本聚类图片识别方法,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。

优选的,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。

优选的,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。

优选的,类内风险计算,计算类内指标,定位存在风险的类。

优选的,上述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。

优选的,上述方法对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。

优选的,上述方法对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。

本发明提供一种文本聚类图片识别系统,包括服务器端、客户端和互联网平台,

用户通过所述客户端提交图片,

所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。

优选的,上述服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。

优选的,上述互联网平台对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。

本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于好心情健康产业集团有限公司,未经好心情健康产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111037175.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top