[发明专利]文本聚类图片识别方法、装置和系统有效
申请号: | 202111037175.6 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113836907B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 陈冠伟 | 申请(专利权)人: | 好心情健康产业集团有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F16/35 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 李莹 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 图片 识别 方法 装置 系统 | ||
1.一种文本聚类图片识别方法,其特征在于,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果,具体包括以下步骤:
S101、输入图片并进行图片EXIF提取和去重,获取图片EXIF信息的UDF,并解析出结果中包含的处理软件、机型和Model信息;
S102、将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,模型会基于贝叶斯概率最大化找到每个处理软件文本的主题分布和每个主题中词的分布,从而生成每个文本对应的词频向量;
S103、正常软件被聚成一个大类,而风险软件则会出现在样本点稀少的类中,预设好类内最大距离后,模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别;
S104、在全部机型中执行上述S102、S103步骤,直至遍历完全部机型中的处理软件文本为止;
S105、类内风险计算,计算类内样本点的数量、model种类、已知安全软件占比和已知风险软件占比,定位存在风险的类;
S106、对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤;
S107、输出当前未知的、疑似风险的软件信息共风险策略进行研判,若排除风险,则更新至安全软件名单;若风险确认,则更新至风险软件名单。
2.根据权利要求1所述的文本聚类图片识别方法,其特征在于,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。
3.一种文本聚类图片识别系统,其特征在于,包括服务器端、客户端和互联网平台,
用户通过所述客户端提交图片,
所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果,具体包括以下步骤:
S101、输入图片并进行图片EXIF提取和去重,获取图片EXIF信息的UDF,并解析出结果中包含的处理软件、机型和Model信息;
S102、将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,模型会基于贝叶斯概率最大化找到每个处理软件文本的主题分布和每个主题中词的分布,从而生成每个文本对应的词频向量;
S103、正常软件被聚成一个大类,而风险软件则会出现在样本点稀少的类中;预设好类内最大距离后,模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别;
S104、在全部机型中执行上述S102、S103步骤,直至遍历完全部机型中的处理软件文本为止;
S105、类内风险计算,计算类内样本点的数量、model种类、已知安全软件占比和已知风险软件占比,定位存在风险的类;
S106、对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤;
S107、输出当前未知的、疑似风险的软件信息共风险策略进行研判,若排除风险,则更新至安全软件名单;若风险确认,则更新至风险软件名单。
4.根据权利要求3所述的系统,所述服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于好心情健康产业集团有限公司,未经好心情健康产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111037175.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用单桥静力触探测试的路基固结度评价方法
- 下一篇:一种龙门行车接水结构