[发明专利]一种文本检测方法、装置及系统在审
申请号: | 201710549655.8 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109213859A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 汤佳宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06Q30/02;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组合特征 行为特征数据 装置及系统 垃圾文本 文本检测 文本特征 文本 检测结果 垃圾邮件 文本信息 信息内容 行为数据 用户预定 预定方式 时效性 构建 申请 关联 垃圾 检测 评论 | ||
1.一种文本检测方法,其特征在于,所述方法包括:
基于待识别文本的信息内容生成文本特征数据;
获取与所述待识别文本相关联的用户的行为数据,生成行为特征数据;
将包括所述文本特征数据和行为特征数据的数据按照预定方式进行组合,生成组合特征数据;
利用预先构建的组合特征识别模型对所述组合特征数据进行处理,根据处理结果确定所述待识别文本的检测结果。
2.如权利要求1所述的一种文本检测方法,其特征在于,所述组合特征识别模型包括采用下述方式构建生成:
获取识别文本的历史数据,提取所述识别文本的文本特征数据,以及获取与所述识别文本相关联的用户预定类型的行为特征数据;
将所述文本特征数据和行为特征数据按照所述预定方式进行组合,生产样本特征数据;
将所述样本特征数据在选取的机器学习训练模型中进行训练,得到所述组合特征识别模型。
3.如权利要求2所述的一种文本检测方法,其特征在于,所述预定类型的行为数据包括识别文本的发送方在所述识别文本发送前后产生的预设行为类型的数据信息。
4.如权利要求2所述的一种文本检测方法,其特征在于,所述组合特征数据还至少包括下述中的一种:
账号信息数据、信用数据、登录地址。
5.如权利要求2所述的一种文本检测方法,其特征在于,所述文本特征数据包括将所述识别文本的信息内容映射到高维空间后生成的长度为n维的向量,n≥1;
所述行为特征数据包括以所述预定类型为向量维度、预定类型的行为数据的取值为对应向量维度上的坐标值生成的长度为m维的向量,m≥1。
6.如权利要求5所述的一种文本检测方法,其特征在于,所述将所述识别文本的文本特征数据和行为特征数据按照预定方式进行组合包括:
将所述文本特征数据和行为特征数据进行相拼接,生成长度为(n+m)维的组合特征数据。
7.如权利要求5所述的一种文本检测方法,其特征在于,所述将所述识别文本的文本特征数据和行为特征数据按照预定方式进行组合包括:
将所述识别文本的文本特征数据和行为特征数据在对应维度上的值进行运算,得到在所述对应维度上的组合特征数据。
8.如权利要求1-7中任意一项所述的文本检测方法,其特征在于,所述待识别文本包括下述中的至少一种文本类型:
询盘信息、邮件信息、评论、留言、RFQ信息、即时通讯聊天记录、附件。
9.一种垃圾询盘检测方法,其特征在于,包括:
基于待识别询盘的信息内容生成文本特征数据;
获取与所述待识别询盘相关联的用户的行为数据,生成行为特征数据;
将包括所述文本特征数据和行为特征数据的数据按照预定方式进行组合,生成组合特征数据;
利用预先离线构建的垃圾询盘识别模型对所述组合特征数据进行处理,根据处理结果判断所述待识别询盘是否为垃圾询盘。
10.一种文本检测装置,其特征在于,所述装置包括:
文本特征抽取模块,用于基于待识别文本的信息内容生成文本特征数据;
行为特征抽取模块,用于获取与所述待识别文本相关联的用户预定类型的行为数据,生成行为特征数据;
特征组合模块,用于将包括所述文本特征数据和行为特征数据的数据按照预定方式进行组合,生成组合特征数据;
检测模块,用于利用预先构建的组合特征识别模型对所述组合特征数据进行处理,根据处理结果确定所述待识别文本的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710549655.8/1.html,转载请声明来源钻瓜专利网。