[发明专利]基于事件识别的搜索电子邮件内容的方法及系统有效
申请号: | 201810980147.X | 申请日: | 2018-08-27 |
公开(公告)号: | CN109446299B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 卢志刚;李宁;杨波;姜波 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N3/04;G06N3/08;G06K9/62;H04L51/42 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 识别 搜索 电子邮件 内容 方法 系统 | ||
1.一种基于事件识别的搜索电子邮件内容的方法,其特征在于,包括以下步骤:
1)解析网络数据包,提取并存储所有smtp协议数据包,以msg格式存储每封邮件的内容;
2)从存储的邮件内容中读取msg信息,按行输出到mbox格式文件;
3)通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容,将邮件内容按预定义事件类型进行分类,得到每封邮件中发生的事件;
其中,步骤(3)所述按预定义事件类型进行分类包括:
3.1)对卷积神经网络进行修改,在其中加入事件类型触发词查找表;所述事件类型包括:会面事件、行程事件、联络事件、交易事件;根据案件类型和训练集中的先验数据,包括典型词及其变形,来设定所述事件类型触发词查找表;
3.2)将邮件内容的句子中的词与所述事件类型触发词查找表中的触发词进行余弦相似量平均加权计算,得到每个句子的词级特征向量;其中的余弦相似量平均加权计算,采用的计算公式如下,其中Ai表示句子中的词向量,Bi表示事件类型触发词查找表中的触发词向量,n表示向量维度:
3.3)将所述词级特征向量与根据句子抽取的句子级特征向量结合,构造最终的特征向量,用于最终分类。
2.根据权利要求1所述的方法,其特征在于,步骤1)解析网络数据包得到的解析结果包含:邮件发信人、收信人、邮件内容及是否包含附件信息。
3.根据权利要求1所述的方法,其特征在于,步骤(1)对邮件内容进行哈希计算生成校验值,以保证邮件内容的完整性。
4.根据权利要求1所述的方法,其特征在于,步骤(2)在按行输出到mbox格式文件后,对msg信息进行预处理,然后作为所述分类器的输入;所述预处理包括分词、去除噪声。
5.根据权利要求1所述的方法,其特征在于,所述基于卷积神经网络的分类器通过word2vec算法构造预处理词向量作为邮件内容中各个词的向量,经过训练,逐渐更新词向量使词向量参数适合输出最优分类结果。
6.根据权利要求1所述的方法,其特征在于,根据标记好的语料进行分类训练,得到所述基于卷积神经网络的分类器的内部参数,所述内部参数包括卷积核维度、权重维度。
7.一种采用权利要求1~6中任一权利要求所述方法的基于事件识别的搜索电子邮件内容的系统,其特征在于,包括:
数据包解析模块,负责解析网络数据包,提取并存储所有smtp协议数据包,以msg格式存储每封邮件的内容;
msg信息读取模块,负责从存储的邮件内容中读取msg信息,按行输出到mbox格式文件;
分类模块,负责通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容,将邮件内容按预定义事件类型进行分类,得到每封邮件中发生的事件。
8.根据权利要求7所述的系统,其特征在于,还包括分类器训练模块,负责训练所述基于卷积神经网络的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810980147.X/1.html,转载请声明来源钻瓜专利网。