[发明专利]一种HS编码自动检索归类的方法及系统在审
申请号: | 202110264452.0 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112765308A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 李静 | 申请(专利权)人: | 四川丝路易购科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06F40/268;G06F40/30;G06F16/33;G06F16/35;G06N3/02;G06Q10/08 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 薛波 |
地址: | 610200 四川省成都市双流*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hs 编码 自动 检索 归类 方法 系统 | ||
1.一种HS编码自动检索归类的方法,其特征在于,包括如下步骤:
步骤一、获取待判定的商品描述信息;
步骤二、对所述商品描述信息进行中文分词,识别每个词语的词性和语义特征;
步骤三、基于所述词性和语义特征对所述商品描述信息执行清洗操作,获取关键词;
步骤四、采用图注意力网络建模所述商品描述信息中关键词之间的关联关系;
步骤五、根据所述关键词的位置、词性、语义特征和关联关系,结合预设的权重设置,得到所述商品描述信息中所述关键词的第一权重;
步骤六、通过Textrank算法,构建所述商品描述信息的语料文本图,并根据所述语料文本图和第一权重,计算所述关键词的第二权重;
步骤七、根据所述关键词的第二权重大小对关键词进行排序,生成关键词序列;
步骤八、基于所述关键词序列对原始语料库执行过滤操作,获取与所述商品描述信息相关领域的领域语料数据;
步骤九、基于前述所得的关联关系在所述领域语料数据中获取一个或多个初步匹配文本;
步骤十、基于前述所得的第二权重,计算所述初步匹配文本与所述关键词序列的相关度;
步骤十一、基于所计算出的相关度,从原始语料库所对应的HS编码中确定商品HS编码。
2.如权利要求1所述的HS编码自动检索归类的方法,其特征在于,所述步骤四具体包括:
步骤4.1、计算关键词之间的注意力分数,具体公式表达为:
式中,为关键词vi和vj的注意力分数,a为权重向量,和分别为关键词vi和vj的线性变换结果;
步骤4.2、使用Softmax对注意力分数标准化,得到:
式中,为关键词vi和vj的关联程度,为所有关键词中关键词vi邻居关键词的集合,其中,vi,vj∈Vn,Vn为关键词的集合;
步骤4.3、循环步骤4.1~步骤4.2,确定所述商品描述信息中所有关键词之间的关联关系。
3.如权利要求2所述的HS编码自动检索归类的方法,其特征在于,所述步骤五具体为:
步骤5.1、依据优序关系Q1>Q2>Q3>Q4,得出各权重判定指标和相邻指标的权重比,其中,所述权重判定指标包括:关联关系指标Q1,位置指标Q2,词性指标Q3以及语义特征指标Q4;
步骤5.2、依据步骤5.1所得的权重比,对各所述关键词的重要程度进行打分,并按分数高度对各所述关键词进行排序,确定各所述关键词的第一权重,公式表达为:
式中,w(vi)为关键词vi的第一权重,为关键词vi权重判定指标Q1的得分,为关键词vi权重判定指标Q2的得分,为关键词vi权重判定指标Q3的得分,为关键词vi权重判定指标Q4的得分。
4.如权利要求3所述的HS编码自动检索归类的方法,其特征在于,所述步骤六具体包括:
步骤6.1、通过Textrank算法对所述商品描述信息中关键词的权重进行计算,公式表达为:
式中,d为阻尼系数,In(vi)为语料文本图中指向关键词vi的所有关键词集合,Out(vj)为语料文本图中关键词vj指向所有关键词的集合,Wji为关键词vj到关键词vi的边的权重;
步骤6.2、根据所述语料文本图和第一权重,按照以下公式计算所述关键词的第二权重,公式表达为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川丝路易购科技有限公司,未经四川丝路易购科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110264452.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种潜水式增氧机的涡轮组件
- 下一篇:手持无线打蛋器