[发明专利]模型训练方法及系统、垃圾邮件识别方法及系统和设备在审
申请号: | 202010832607.1 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111931499A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 黎建辉;周振伟;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/258;G06F40/216;G06F16/35 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 系统 垃圾邮件 识别 设备 | ||
本发明公开了一种模型训练方法及系统、垃圾邮件识别方法及系统和设备,所述模型训练方法包括:获取多个邮件样本,所述邮件样本包括垃圾邮件和非垃圾邮件;对邮件样本的文本做分词处理,将分好的词汇总,并为每个词对应设置唯一不重复的数字编号,得到由邮件样本的词汇对应的数字编号所组成的数据样本;把每个词的数字编号转换为一个词向量,并基于词向量得到所述数据样本的句向量;将所述数据样本中每个数字编号的词向量和所述句向量输入到分层注意力网络模型中进行训练,得到用于识别垃圾邮件的目标模型。本发明提高了模型的理解分析能力,实现了垃圾邮件识别、处理过程的自动化,提高了判断垃圾邮件的准确率,极大提高了业务流程整体效率。
技术领域
本发明涉及深度学习领域,特别涉及一种模型训练方法及系统、垃圾邮件识别方法及系统和设备。
背景技术
随着国内在线旅行社(Online Travel Agency,简称OTA)平台不断拓展国际市场,越来越多的海外商户接入平台。OTA平台与海外酒店和供应商的主要沟通方式是邮件往来,邮件收发量随着海外业务的快速增长而水涨船高,这些邮件的查看和处理需要耗费大量人力。在日常的运营过程中,大量邮件实际上并不需要人工查看,例如广告营销类邮件、没有实质内容的自动回复邮件、业务流程上本来就不需要人工介入的邮件等,这些邮件被统称为“垃圾邮件”。垃圾邮件具体包含的种类,由相关业务部门决定。邮件的内容纷繁复杂,垃圾邮件和非垃圾邮件区分规则完全由人工制定并不现实。人工过滤垃圾邮件不但不够效率,还会造成大量人力的浪费。
发明内容
本发明要解决的技术问题是为了克服完全人工制定邮件区分规则不现实、人工过滤垃圾邮件不够效率且造成大量人力浪费的缺陷,提供一种模型训练方法及系统、垃圾邮件识别方法及系统和设备。
本发明是通过下述技术方案来解决上述技术问题:
一种模型训练方法,包括:
获取多个邮件样本,所述邮件样本包括垃圾邮件和非垃圾邮件;
对邮件样本的文本做分词处理,将分好的词汇总,并为每个词对应设置唯一不重复的数字编号,得到由邮件样本的词汇对应的数字编号所组成的数据样本;
把每个词的数字编号转换为一个词向量,并基于词向量得到所述数据样本的句向量;
将所述数据样本中每个数字编号的词向量和所述句向量输入到分层注意力网络模型中进行训练,得到用于识别垃圾邮件的目标模型。
较佳地,所述邮件样本的文本包括中文和/或英文,
和/或,
得到所述数据样本之后,所述模型训练方法还包括:
统计所有数据样本的长度,选取一目标文本长度,长于所述目标文本长度的数据样本在末尾截断,短于所述目标长度的数据样本在末尾补0至所述目标文本长度。
一种垃圾邮件识别方法,包括:
当接收到新邮件时,自动获取所述新邮件的内容;
对所述新邮件的内容做分词处理得到新邮件文本,根据预设的词与数字编号的对应关系将所述新邮件文本转换为新数据文本;
将所述新数据文本的数字编号转化为词向量,并基于词向量得到所述新数据文本的句向量;
将所述新数据文本的词向量和句向量输入到利用上述各项任意组合的模型训练方法得到的目标模型中,得到模型的输出值;
将所述模型的输出值与目标阈值进行比较,若所述模型的输出值大于目标阈值,则将所述新邮件识别为垃圾邮件。
较佳地,将所述新邮件识别为垃圾邮件后,所述垃圾邮件识别方法还包括:
将所述新邮件存入邮件系统的垃圾箱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010832607.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防误按智能悬浮吊
- 下一篇:一种晶硅太阳电池背电极结构