[发明专利]基于事件识别的搜索电子邮件内容的方法及系统有效
申请号: | 201810980147.X | 申请日: | 2018-08-27 |
公开(公告)号: | CN109446299B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 卢志刚;李宁;杨波;姜波 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N3/04;G06N3/08;G06K9/62;H04L51/42 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 识别 搜索 电子邮件 内容 方法 系统 | ||
本发明涉及一种基于事件识别的搜索电子邮件内容的方法及系统。该方法包括:1)解析网络数据包,提取并存储所有smtp协议数据包,以msg格式存储每封邮件的内容;2)从存储的邮件内容中读取msg信息,按行输出到mbox格式文件;3)通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容,将邮件内容按预定义事件类型进行分类,得到每封邮件中发生的事件。本发能够自动化完成对邮件内容按各事件类型进行标记,给出邮件中是否出现与案件相关事件的标记,方便调查人员快速掌握邮件中的信息,快速筛选出与案件密切相关的邮件,提高自动化程度。
技术领域
本发明属于计算机网络取证领域,涉及一种信息检索技术,特别涉及一种基于事件识别的搜索电子邮件内容的方法及系统。
背景技术
移动通信技术、网络技术、信息技术的相互融合与交织发展,使得电子邮件在工作、生活中替代了传统书信成为了主要的书面通信载体。据统计平均一个企业员工每天四分之一的时间处理与邮件相关的业务,平均每天发信43封。在涉及电子邮件取证调查的案件中,待查的邮件数据规模通常使得调查工作面临资源(计算资源、人力资源)不足的困难,从而造成积压滞后,主要原因包括以下几点:
(1)相关取证工具对于文本内容搜索效率不高。当前工具主要依赖相对简单的哈希及检索算法限制了检查的效率。有限数量的关键词搜索(10-20个关键词)处理时间往往要耗费数天时间,重要证据常常被淹没在大量与案件相关度不高的命中结果中。
(2)调查人员有限的认知处理能力妨碍取证调查的结果。随着案件涉及待检查、待分析的文本数据规模的增加,调查人员无法实现对所有的关键字命中结果完成详细的分析。
(3)从海量数据中筛选信息从而推导得出结论的需求不仅只涉及数字取证研究领域。尽管其它领域已经广泛开展应用数据挖掘以及信息检索技术解决类似的问题,但是目前致力将这些技术应用到数字取证调查中来的研究数量不多,应用到电子邮件的取证调查的数量更少。
事件识别是事件提取的任务的重要组成部分。事件识别(Event Detection)指从文本内容中发现特定事件类型的实例。与每个事件描述相关联的是引发事件的短语、触发词(通常是动词或名词化结构)。因此可以更准确将事件识别任务描述为识别事件的触发词并将其分类到特定的类别。例如,在“The gunman fired three bullets at the police”句子中,事件识别系统需要能够将“fired”归类为攻击事件的触发词。事件识别需要解决两个主要问题:相同的事件可能会被不同的触发词所表示和一个表示在不同语境下代表不同的事件。
目前,事件识别可采用的技术包括以下几个方面:
(1)基于规则的方法。基于规则的系统通常采用正则表达式的形式制定规则,如果输入文本与某一规则匹配,则被归入相应的类。在自然语言处理中,应用基于规则的方法分词(tokenization)、提取词干(stemming)和词性标注(Part-of-Speech tagging)。基于规则的方法需要大量的人工干预,虽然仍具有一定的优势,例如:规则制定开发时间短,不依赖标注好的训练数据,但只适用于小规模新出现的应用领域等。
(2)监督学习。通过已有数据自动提取规则或应用统计方法预测,可采用支持向量机、逻辑回归等。
(3)混合方法。基于规则方法与机器学习方法结合,混合方法在自然语言处理的任务应用广泛,例如机器翻译、语法分析和信息抽取等。
(4)词向量(word embedding)。词向量是通过神经网络模型生成的词的低维实数向量表示,词向量中包含丰富的语义信息,在信息检索、机器翻译、语音识别等自然语言处理任务中发挥关键作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810980147.X/2.html,转载请声明来源钻瓜专利网。