[发明专利]作为对机器学习模型字符串填充抑制的经投影的向量修改在审

申请号：	202110214354.6	申请日：	2021-02-25
公开（公告）号：	CN113449299A	公开（公告）日：	2021-09-28
发明（设计）人：	E·G·彼得森	申请（专利权）人：	西兰克公司
主分类号：	G06F21/56	分类号：	G06F21/56;G06K9/62;G06N3/04;G06N20/00
代理公司：	北京市金杜律师事务所 11256	代理人：	黄倩
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	作为机器学习模型字符串填充抑制投影向量修改
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种计算机实现的方法，包括：

接收工件；

从所述工件提取特征并且填充向量；

使用特征简化操作来简化所述向量中的特征，以得到具有多个桶的经修改的向量；

标识所述经修改的向量中对得分的影响高于预定阈值的桶内的预定类型的特征的存在；

减弱在所述经修改的向量的高影响桶内所标识的所述特征的贡献；

将所述经修改的向量输入到分类模型中，以生成得分；以及

向消费应用或过程提供所述得分。

2.根据权利要求1所述的方法，其中所述分类模型将所述工件表征为对于访问、执行或者继续执行是恶意的或者是良性的。

3.根据权利要求2所述的方法，还包括：当所述分类模型将所述工件表征为是恶意的时，防止所述工件的访问或者执行。

4.根据前述权利要求中任一项所述的方法，其中所述分类模型是使用训练数据集而被训练并且提供连续量表输出的机器学习模型。

5.根据前述权利要求中任一项所述的方法，其中所述机器学习模型包括以下一项或多项：逻辑回归模型、神经网络、卷积神经网络、递归神经网络、生成对抗网络、支持向量机、随机森林或者贝叶斯模型。

6.根据前述权利要求中任一项所述的方法，其中所述预定类型的特征包括字母数字字符串。

7.根据前述权利要求中任一项所述的方法，还包括：

将多个向量化的恶意软件样本输入到所述分类模型中；

基于所输入的所述向量化的恶意软件样本来获取多个得分；以及

基于分类，标识所述向量化的恶意软件样本的对所述得分的影响高于所述预定阈值的桶内的所述预定类型的特征。

8.根据前述权利要求中任一项所述的方法，其中所述特征简化操作包括以下一项或多项：主成分分析(PCA)、随机投影矩阵(RPM)、线性判别分析、典型相关分析、奇异值分解(SVD)、潜在语义索引(LSI)、离散余弦变换(DCT)、随机化主成分分析(RPCA)、或者大样本随机化主成分分析(LS-RPCA)。

9.一种系统，包括：

至少一个数据处理器；以及

包括指令的存储器，所述指令当由所述至少一个数据处理器执行时导致操作，所述操作包括：

接收工件；

从所述工件提取特征并且填充向量；

使用特征简化操作来简化所述向量中的特征，以得到具有多个桶的经修改的向量；

标识所述经修改的向量的对得分的影响高于预定阈值的桶内的预定类型的特征的存在；

减弱在所述经修改的向量的高影响桶内所标识的所述特征的贡献；

将所述经修改的向量输入到分类模型中，以生成得分；以及

向消费应用或过程提供所述得分。

10.根据权利要求9所述的系统，其中所述分类模型将所述工件表征为对于访问、执行或者继续执行是恶意的或者良性的。

11.根据权利要求10所述的系统，其中所述操作还包括：当所述分类模型将所述工件表征为是恶意的时，防止所述工件的访问或者执行。