[发明专利]一种电子元器件型号词的自动提取方法及系统在审
| 申请号: | 202110177411.8 | 申请日: | 2021-02-07 | 
| 公开(公告)号: | CN112818693A | 公开(公告)日: | 2021-05-18 | 
| 发明(设计)人: | 樊芳华 | 申请(专利权)人: | 深圳市世强元件网络有限公司 | 
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04 | 
| 代理公司: | 深圳市瑞方达知识产权事务所(普通合伙) 44314 | 代理人: | 郭方伟 | 
| 地址: | 518000 广东省深圳市龙岗区坂田街道雪岗路*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 电子元器件 型号 自动 提取 方法 系统 | ||
本发明公开了一种电子元器件型号词的自动提取方法及系统,该方法包括:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;获得待提取文档,根据型号列名字典进行表格中型号词的匹配提取,和/或根据型号词推测模型进行文本中型号词的推测提取。通过实施本发明可以从电子厂商的海量电子元器件资料自动提取出元器件的型号词,减少人力投入以及提高提取的准确率,改善电商系统体验。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种电子元器件型号词的自动提取方法及系统。
背景技术
随着社会工业化的不断发展,电子行业也随之蓬勃发展,产生各种电子元器件以满足社会工业化需要,随之而产生的海量电子元器件资料,资料中记录大量的元器件型号及规格需要提取出来,用作电商系统用户搜索对应元器件的关键词。目前行业并未有行之有效的方法从海量的文章中自动提取出型号,而是依靠人为肉眼的识别、标记和提取,不仅耗费时力,而且在提取的时候,由于人员素质不一,导致大量型号提取错误,影响电商系统用户搜索的准确性和用户搜索意图推测及商品推荐效果,导致用户体验差。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种电子元器件型号词的自动提取方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种电子元器件型号词的自动提取方法,包括以下步骤:
S1:根据训练文档进行型号列名字典的构建以及型号词推测模型的训练;
S2:获得待提取文档,根据所述型号列名字典进行表格中型号词的匹配提取,和/或根据所述型号词推测模型进行文本中型号词的推测提取。
优选地,在本发明所述的电子元器件型号词的自动提取方法中,所述步骤S1包括:
S11:从至少一训练文档中提取文本数据和/或表格数据;其中,所述训练文档为已标记型号词的文档;
S12:判断是否存在表格数据,若是,则执行步骤S13,若否,则执行步骤S14;
S13:根据表格的表头数据,通过经验推测构建所述型号列名字典;
S14:利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述型号词推测模型中进行识别训练。
优选地,在本发明所述的电子元器件型号词的自动提取方法中,所述步骤S2包括:
S21:从至少一待提取文档中提取文本数据和/或表格数据;
S22:判断是否存在表格数据,若是,则执行步骤S23,若否,则执行步骤S24;
S23:根据所述型号列名字典进行表格数据中表头下的型号词匹配,提取表格中的型号词;
S24:利用分词器对文本数据进行分词,根据所述型号词推测模型对分词后的词语进行是否为型号词的推测,提取文本中的型号词。
优选地,在本发明所述的电子元器件型号词的自动提取方法中,所述型号词推测模型包括用于对单组厂商的型号词进行推测的至少一个单组厂商型号词推测模型和/或用于对所有厂商的型号词进行推测的所有厂商型号词推测模型;
所述步骤S14包括:根据训练文档所属的厂商属性获取对应的文本数据,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至与厂商属性对应的所述单组厂商型号词推测模型中进行识别训练;
和/或,利用分词器对文本数据进行分词,获取分词后的存在标记的型号词,并输入至所述所有厂商型号词推测模型中进行识别训练;
所述步骤S24包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世强元件网络有限公司,未经深圳市世强元件网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110177411.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转楼梯及其制作方法
- 下一篇:口罩全自动包装设备





