[发明专利]一种基于规则的跨境电商商品质量风险识别方法有效

专利信息
申请号: 201711099313.7 申请日: 2017-11-09
公开(公告)号: CN107886240B 公开(公告)日: 2021-09-28
发明(设计)人: 何军良;宋博;马奕葳;王煜;杨振生 申请(专利权)人: 上海海事大学
主分类号: G06Q10/06 分类号: G06Q10/06;G06F40/289;G06F40/30;G06F16/36
代理公司: 上海三和万国知识产权代理事务所(普通合伙) 31230 代理人: 陈伟勇
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及跨境电子商务领域,公开了一种用于对跨境电商商品质量风险进行自动识别的方法,包括商品风险知识获取、商品自动分类、商品风险识别和商品风险信息可视化模块,所述跨境电商商品质量风险自动识别方法,能够及时快速地处理海量跨境商品信息,发现其中不符合我国质量要求的商品,并以可视化的形式呈现风险商品的统计信息,本发明可以帮助消费者选择质量更加安全的跨境商品,同时可协助政府有关部门对跨境电商平台进行监管。
搜索关键词: 一种 基于 规则 跨境电商 商品 质量 风险 识别 方法
【主权项】:
一种跨境电商商品质量风险自动识别方法,其特征在于包括以下步骤:步骤S1:知识获取,将与跨境电商相关的法律法规、国家标准转化为规则型知识;所述步骤S1包括以下步骤:S11:定义四种风险规则及其对应的语法结构,分别为分类规则、父类规则、配方规则和禁止规则;以BNF范式定义的分类规则语法形式为:CLASSIFICATION_RULE::=IF商品信息包含关键字argument{,argument}[且不含关键字keyword{,keyword}]THEN商品属于类别keyword父类规则语法形式为:FATHER_CLASS::=IF商品类型是keywordTHEN商品也属于类型keyword配方规则语法形式为:INGREDIENT_RULE_LIMIT::=IF商品类别为keyword且商品的keyword(大于|小于)numberTHEN商品有风险INGREDIENT_RULE_RANGE::=IF商品类别为keyword且商品的keyword(间于|外于)number‑numberTHEN商品有风险禁止规则的语法形式为:FORBIDDEN_RULE::=IF商品信息包含关键字argument{,argument}[且不含关键字keyword{,keyword}]THEN商品被禁止入境其中:argument::=keyword{|keyword}keyword和number分别为字符串和数字,由用户根据法规、标准的条款进行填写S12:解析用户输入的规则文本,将其转化为符合Drools标准的计算机代码;步骤S2:对商品标题进行解析;所述步骤S2包括以下步骤:S21:对商品标题进行分词;所述步骤S21具体如下:步骤S211:遍历语义词典HowNet中的词语,若其出现在商品标题中,则把该词语加入到临时列表中;步骤S212:遍历临时列表中的词语,若其被列表中的另一个词语包括,则删除该被包括的词语;S22:对商品标题词语赋予权重;所述步骤S22具体如下:步骤S221:构建关键词图G=(V,E),其中V为节点集,由S21生成的分词结果组成,然后基于词语在商品标题中的共现关系构造任意两点之间的边E,两个节点之间仅当它们对应的词语在同一个商品标题中共现时存在边;步骤S222:使用TextRank算法按照如下公式计算节点Vi的权重WS(Vi):WS(Vi)=(1-d)+d.ΣVj∈In(Vi)wijΣVk∈Out(Vj)wjkWS(Vj)]]>其中,d为阻尼系数,取值0.85,代表从关键词图中某一特定点指向其他任意点的概率,wij为关键词图中任两点Vi,Vj之间边的权重,令所有边权重取1,对于一个给定的点Vi,In(Vi)为指向点Vi的集合,Out(Vi)为点Vi指向的点的集合;步骤S223:给关键词图中的点指定任意的初始权重值,并迭代计算直到权重收敛,当关键词图中每一点的权重值在两次迭代之间的差值都小于0.0001时认为迭代收敛,并输出此时每个词语的权重值;步骤S3:对商品按照国标和法规中定义的商品类型进行分类;所述步骤S3包括以下步骤:S31:建立实体概念Entity,赋予其名称、数值、相关实体列表、类型列表、激活规则列表和风险程度六个属性;S32:对于待分类的商品标题,创建与之对应的Entity,提取商品标题中WS(Vi)最大的三个名词性词语作为商品的可能类型加入到该Entity的类型列表中,同时,根据语义词典HowNet取得这三个名词的父类概念,将它们也加入到类型列表中;S33:将商品对应的Entity加入Drools推理机,若触发S11中描述的分类规则,则商品类型得到判明,若商品未触发任何分类规则,则采用如下方式确定其类型:计算词语w和w'之间的互信息MI:MI(w,w′)=logp(w,w′)p(w)p(w′)]]>其中p(w,w’)是语料库中含有词w和词w'的句子在所有句子中所占的比例,p(w)是含有词w的句子在所有句子中所占的比例;定义词语相关度其中l是以字数衡量的词语长度,S为语料库中所有句子的集合,当两个词语完全相同时,其相关度按照情况I计算,当两个词语包含不同的单字时,其相关度按照情况II计算一个商品标题T与类别定义C的相关度R(T,C)计算如下:R(T,C)=12(Σw∈Tmaxw′∈CRW(w,w′)WS(w)Σw∈TWS(w)+Σw′∈Cmaxw∈TRW(w,w′)TFIDF(w′,C)Σw′∈CTFIDF(w′,C))]]>其中f(w,d)是文档d中词语w出现的次数,D是所有文档构成的集合经过计算某一商品标题和所有类型定义文档的相关度,可确定相关度最高的文档所对应的类型为该商品所属类型;步骤S4:对商品质量风险进行识别;所述步骤S4包括以下步骤:S41:从数据库中读入n条尚未进行风险识别的跨境商品信息,n取为50每线程;S42:将n条商品信息按照步骤S21进行处理,在执行步骤S22时,从事先运行步骤S22得到的词语权重列表中直接查询出标题词语权重以加快系统处理速度,所谓事先运行步骤S22是指预取数据库中大量的、覆盖尽可能多商品种类的商品信息,用其执行S21和S22得到词语权重,并将这些“词语‑权重”信息存入表中并读入内存,系统每隔固定时间用最新的若干条商品信息运行步骤S22并得到新的“词语‑权重”列表;S43:将n条经过步骤S2处理的商品信息送入步骤S3执行,若商品能触发分类规则,则推理引擎Drools能够自动按照配方规则推导出风险结果,若商品不能触发分类规则,则在执行步骤S33后,按照阈值θ=0.5进行判断,若商品与所有类别的最大相似度大于θ,则选择具有最大相似度的类别作为商品类别进行后续配方规则的推理,若最大相似度小于θ,则不对商品进行分类,仅按照禁止规则对该商品是否被禁止进境进行判断;S44:若一项商品的相关实体列表为空,则取该商品关键词序列中WS(Vi)最大的5个词构成集合A,对与该商品属同一类别的每项历史商品,同样取WS(Vi)最大的5个词构成集合B,计算A和B之间的Jaccard相似度:J(A,B)=|A∩B||A∪B|]]>当输入商品与历史商品的最大Jaccard相似度大于0.5时,将相似度最大商品的非空配方信息注入输入商品的相关实体列表,作为输入商品的配方信息,并将赋予了配方信息的输入商品重新送入风险推理引擎进行推理;步骤S5:对商品风险识别结果进行可视化显示;所述步骤S5包括以下步骤:S51:按照商品的首次获取时间、品牌、产地、销售平台、类别和店铺名称对有风险的商品进行数量统计;S52:以时间为横轴,风险商品数量为纵轴,对不同品牌、产地、销售平台、类别和店铺的商品进行绘图,包括折线图和直方图;S53:选定某一时间段,按照不同品牌、产地、销售平台、类别和店铺的风险商品在总风险商品数量中所占的比重绘制饼图;S54:以跨境商品的产地为依据,在世界地图上标记产品输入国,以输入国首都为圆心,该国被发现的风险商品数量为半径绘制圆圈,并以动态效果展示在WEB页面上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711099313.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top