[发明专利]一种融合多层次信息的海关同义词识别方法在审
申请号: | 202111045198.1 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113779196A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 张强;刘大为;车超;周东生 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/247;G06N3/04;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多层次 信息 海关 同义词 识别 方法 | ||
本发明公开了一种融合多层次信息的海关同义词识别方法,包括:步骤1:将相同商品的所述要素短语作为同义词集合,获取多组同义词集合形成同义词识别的数据集;步骤2:将同义词集合进行向量编码转换,采用word2vec模型提取所述数据集中同义词的词向量特征,通过sentence‑BERT模型提取所述数据集中同义词的句向量特征;步骤3:把词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取,同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息;步骤4:将语序信息和关键词信息对应的特征进行拼接,再与BiLSTM+attention网络的输出层拼接,送入softmax层进行训练分类,得到同义词类别。本发明解决了同类商品要素短语稀疏造成的同义词识别困难问题,提高了同义词识别的准确率。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于双通道卷积融合多层次信息的海关进出口商品同义词识别方法。
背景技术
近年来,随着跨境电商的迅速发展,对海关涉税风险的防控手段和作业方式都提出了更高的要求。传统的监管方式无法高效地甄别高风险数据,而源源不断的海关进出口商品信息为智能化处理涉税文本提供了条件。海关进出口企业依照规范申报标准需要填写进出口商品信息,所述进出口商品信息中“规格型号”一项包含了材质、种类、用途、成分等商品的要素短语,是商品文本信息的重要载体。对海关商品要素短语进行同义词识别分类,建立海关同义词库,将具有同义词关系的进出口商品纳入到同类商品的风险布控中,可以帮助海关提高风险布控手段,使商品的监管范围锁定在要素粒度上,对企业进出口商品信息的规范申报具有重要意义。
海关同义词识别是将具有相同属性的,概念上具有同一类特征的要素短语归类到一起,作为短文本分类问题在自然语言处理领域有极高的应用场景。
不同于传统的文本语料,海关同义词具有如下特点:1)依赖关键词信息;2)具有语序上的序列关系,按照上下文的语义排列;3)同类同义词在向量空间上具有明显的聚类特征。谷歌提出的BERT模型是一个基于多层双向的Transformer预训练模型,在文本分类等多个自然语言任务中取得了显著的效果,但BERT模型只能两两比较句子相似度,无法对大规模的同义词进行语义识别。此外,BERT向量无法根据同义词特点进行针对性的特征抽取,海关同义词在向量空间中具有相近的语义关系,sentence-BERT模型可以将语义接近的同义词映射到相近的句向量空间中,与word2vec词向量构成了句子级和词汇级的向量表示,其尽管在同义词识别方面进行了大量工作,但在海关同义词识别上仍有较高难度,常规方法很难有效的提取到海关语料的关键特征,由此可见,需要提出一种新的基于深度神经网络的海关同义词识别方法。
发明内容
本申请的目的在于提供一种海关进出口商品同义词识别方法,通过利用海关专有的语料资源,解决了同类商品要素短语稀疏造成的同义词识别困难问题,提高了同义词识别的准确率。
为实现上述目的,本申请提出一种融合多层次信息的海关同义词识别方法,包括:
步骤1:从海关进出口商品申报文本中提取描述商品属性的要素短语,将相同商品的所述要素短语作为同义词集合,获取多组所述同义词集合形成同义词识别的数据集;
步骤2:将所述同义词集合进行向量编码转换,采用word2vec模型提取所述数据集中同义词的词向量特征,通过sentence-BERT模型提取所述数据集中同义词的句向量特征;
步骤3:把所述词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取,同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息;
步骤4:将所述语序信息和关键词信息对应的特征进行拼接,再与BiLSTM+attention网络的输出层拼接,送入softmax层进行训练分类,得到同义词类别。
进一步的,所述步骤2具体实现方式包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111045198.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一锅法合成除虫脲的方法
- 下一篇:可重复利用的树脂塞孔用垫板的制作方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置