[发明专利]一种电商安全相关实体的自动挖掘方法及系统有效
| 申请号: | 201810242990.8 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108717637B | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 纪守领;伍一鸣;陈建海;刘倩君 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F16/953;G06F16/33 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 安全 相关 实体 自动 挖掘 方法 系统 | ||
本发明公开了一种电商安全相关实体的自动挖掘方法和系统,其中方法包括:从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;对筛选后的语句集合进行实体提取,获得候选实体集合;对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。本发明的电商安全相关实体的自动挖掘方法能有效识别电商舆情安全相关实体。
技术领域
本发明涉及自然语言处理和电商服务安全技术领域,尤其涉及一种电商安全相关实体的自动挖掘方法及系统。
背景技术
“互联网+”时代下,电子商务迅猛发展。日益激烈的商品竞争,滋生了一条以炒信作弊为主要模式以及虚假交易、人工流量和垃圾评论为典型特征的电商黑灰产业链。同时,竞争引发了一系列以诈骗为主的违法犯罪活动,其存在严重危害了电子商务的信誉体系和市场秩序。因此,全面整治网络服务环境,严厉打击电商黑灰产业链,已成为电商平台健康发展、良性竞争的必然要求。
由于互联网技术的发展,商家和作弊用户之间的非法交易已从传统的P2P形式演变成了商家向刷单组织支付费用、刷单组织分配任务给刷单者、刷单者完成任务获取报酬这一完整的产业链条,在这条产业链中有很多作弊方式在不断的升级和进化,这些隐形且新颖的作弊方式借助电商平台不断进行着扰乱市场、违法逐利的行为。
此外,由于电商购物平台对店铺及商品采取了排名机制,店铺通常会采取一系列的策略来吸引流量,从而提高交易率。因此,电商服务平台应运而生。根据平台的经营方式可以将其分成两种,一是在购物平台允许的范围内,帮助商家更好的包装店铺,例如提供页面设计的服务型网站;二是给虚假交易等作弊行为提供资源的平台,例如出售大量的身份信息给商家。
即使各大电商交易平台都有自己独立的反作弊算法对这些行为进行检测与打击,但也只能依赖于平台中已经产生的虚假交易活动来挖掘出虚假交易的数据(交易量)和对象(商品、商家、用户),无法在交易完成之前对用户和商家的行为进行防范和杜绝,由此可见电商黑灰产业链已经形成了一个异常成熟且初具智能的系统,其庞大的信息量和隐蔽的交易方式若人为的进行挖掘和分析将会是一个非常巨大的工程。
命名实体识别(Named Entity Recognition)是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果。一直以来,中文的命名实体识别都是自然语言领域处理的一个难题,目前研究中的方法主要可以归纳为基于规则的方法、基于统计的方法、以及两者的结合。基于统计的方法往往依赖于统计模型和语料,而没有充分研究命名实体自身的构成模式。而在电商舆情语料库中,严重存在着实体数据稀疏的问题,导致很难得到正确的实体识别结果。
发明内容
本发明提供了一种电商安全相关实体的自动挖掘方法,能有效识别电商舆情安全相关实体。
本发明提供了如下技术方案:
一种电商安全相关实体的自动挖掘方法,包括以下步骤:
(1)从互联网中收集涉及电商的舆情数据,所述的舆情数据为文本信息的集合;
(2)对所述的舆情数据进行初步筛选,剔除与电商黑灰产业链相关性较小的文本信息,将筛选后的舆情数据切分为语句,对语句集合进行迭代筛选,剔除不含有电商安全相关实体的语句,人工提取部分电商安全相关实体集S1;
(3)分别利用TF-IDF的方法和基于规则的命名实体识别方法,对筛选后的语句集合进行实体提取,获得候选实体集合;
(4)根据词频特征、长度特征以及上下文特征对候选实体集合进行筛选,剔除不属于电商安全相关实体的短语,得到电商安全相关实体集S2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810242990.8/2.html,转载请声明来源钻瓜专利网。





