[发明专利]一种文本检测方法、装置及系统在审
申请号: | 201710549655.8 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109213859A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 汤佳宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06Q30/02;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组合特征 行为特征数据 装置及系统 垃圾文本 文本检测 文本特征 文本 检测结果 垃圾邮件 文本信息 信息内容 行为数据 用户预定 预定方式 时效性 构建 申请 关联 垃圾 检测 评论 | ||
本申请实施例公开了一种文本检测方法、装置及系统。所述方法包括:基于待识别文本的信息内容生成文本特征数据;获取与所述待识别文本相关联的用户预定类型的行为数据,生成行为特征数据;将包括所述文本特征数据和行为特征数据的数据按照预定方式进行组合,生成组合特征数据;利用预先构建的组合特征识别模型对所述组合特征数据进行处理,根据处理结果确定所述待识别文本的检测结果。利用本申请各个实施例,可以提高垃圾文本识别的准确性,能及时、有效的检测出垃圾询盘、垃圾邮件、恶意评论等垃圾文本,具有更好的准确性、稳定性和时效性,提高文本信息环境的安全性。
技术领域
本申请属于计算机数据处理技术领域,尤其涉及一种文本检测方法、装置及系统。
背景技术
随着互联网技术的迅速发展和普及,业务网站的种类也越来越多,业务内容也越来越丰富。目前,询盘是业务网站中买卖双方沟通的重要手段,可以实现买方和卖方有效推广产品或获取对方的业务需求。
所述的询盘,在业务网站中通常是指买家通过留言方式向卖家询问产品的有关内容,比如价格、规格等。构成询盘中的词或词组的总个数一般在200以内,属于短文本内容,例如常见的短文本类型有:评论、留言、短信等,可以通过邮件、即时通信工具等将询盘发送给对方。但目前在业务网站、邮件、RFQ(Request for Quotation的简写,是一种买家通过把采购需求的详细描述发送到公开市场,让卖家来找买家并提供报价的业务模式)等的询盘或类似询盘的业务环境中,常常存在着大量的垃圾询盘,造成对用户的信息干扰,并带来资金、账户、信息泄露等风险。垃圾询盘通常是指买家向卖家发送的对于卖家而言无实际业务意义的询盘,包含的种类多种多样,主要包括文本垃圾询盘、钓鱼询盘、广告询盘等。尤其是经过伪装的钓鱼询盘,其目的是欺骗收件人将账号、密码等信息回复给指定的接收者,或引导收件人连接到特制的网页,这些网页通常会伪装成和真实网站一样,如银行或理财的网页,使得登录者信以为真,当登陆者在这些网页上登陆时,其账号密码就会被盗取。
现有中常用的垃圾询盘的识别方式主要是基于询盘文本内容的识别,如朴素贝叶斯方案。这种方式在一定程度上可以识别纯粹的基于文本的垃圾询盘,但对于钓鱼、欺诈类别的询盘,由于询盘的信息内容与正常询盘相似性很高,难以文本进行区分。对于钓鱼、欺诈类别的询盘,业务通常采取的方式是先通过检测、判决等策略识别出垃圾账号,然后再由垃圾账号关联出垃圾询盘。这个方法需要积累一定时间的行为数据,因此具有滞后性的问题。
现有技术中垃圾询盘的识别方式通常的针对不同垃圾询盘类型进行单独建模,检测方式单一,识别结果具有局部性(如上述对询盘文本内容可以识别却无法识别钓鱼询盘)和滞后性,使得目前整体垃圾询盘识别的准确性较低,识别效果较差,降低了用户体验和询盘信息的安全性。
发明内容
本申请目的在于提供一种文本检测方法、装置及系统,可以提高垃圾文本识别的准确性,能及时、有效的检测出垃圾询盘、垃圾邮件、恶意评论等垃圾文本,具有更好的准确性、稳定性和时效性,提高文本信息环境的安全性。
本申请提供的一种文本检测方法、装置及系统是包括如下的方式实现的:
一种文本检测方法,所述方法包括:
基于待识别文本的信息内容生成文本特征数据;
获取与所述待识别文本相关联的用户预定类型的行为数据,生成行为特征数据;
将包括所述文本特征数据和行为特征数据的数据按照预定方式进行组合,生成组合特征数据;
利用预先构建的组合特征识别模型对所述组合特征数据进行处理,根据处理结果确定所述待识别文本的检测结果。
一种垃圾询盘检测方法,包括:
基于待识别询盘的信息内容生成文本特征数据;
获取与所述待识别询盘相关联的用户预定类型的行为数据,生成行为特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710549655.8/2.html,转载请声明来源钻瓜专利网。