[发明专利]一种电子邮件语言的识别方法有效
申请号: | 201610457565.1 | 申请日: | 2016-06-22 |
公开(公告)号: | CN107528765B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 孙宁 | 申请(专利权)人: | 北京宸瑞国新科技有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06Q10/10 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 刘冬梅;路永斌 |
地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子邮件 语言 识别 方法 | ||
1.一种电子邮件语言的识别方法,其特征在于,该方法包括以下步骤:
步骤1:选取电子邮件,获得满足预定要求的电子邮件;
步骤2:读取满足预定要求的电子邮件的相关内容;
步骤3:对满足预定要求的电子邮件的相关内容做语言识别处理;
步骤4:统计所述满足预定要求的电子邮件的语言种类及每种语言的比重;
步骤1中,所述预定要求为电子邮件的格式遵循RFC协议,其中RFC协议是指1982年出版的RFC822的电子邮件格式的规定;
读取的满足预定要求的电子邮件的相关内容包括电子邮件发件服务器地址、电子邮件收件服务器地址、电子邮件的优先级、电子邮件发件人、电子邮件收件人列表、电子邮件抄送人列表、电子邮件密送人列表、电子邮件标题、电子邮件正文和电子邮件附件;
在读取的满足预定要求的电子邮件的相关内容中以电子邮件标题、电子邮件正文和电子邮件附件为电子邮件语言识别的主要要素;
步骤3中,对满足预定要求的电子邮件的相关内容做语言识别处理包括以下子步骤:
子步骤3.1:将所述电子邮件标题、电子邮件正文和电子邮件附件分别转化为二进制编码;
所述电子邮件附件包括Microsoft Office文件、PDF文件和TXT文件,
子步骤3.2:对所述二进制编码做初步语言识别处理,获得初次识别结果;
在子步骤3.2中通过Unicode编码对所述二进制编码做初步语言识别处理,获得初次识别结果,
子步骤3.3:对所述初次识别结果做二次语言识别处理,获得二次识别结果;
在子步骤3.3中通过语言习惯对所述初次识别结果做二次语言识别处理,获得二次识别结果;统计所述二次识别结果获得所述满足预定要求的电子邮件的语言种类及每种语言的比重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宸瑞国新科技有限公司,未经北京宸瑞国新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610457565.1/1.html,转载请声明来源钻瓜专利网。